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本 书面 向 的 读者 是 那些 经 常 使 用 电子 表格 软件 进行 数据 处 理 ， 但 从 未 写 过 一 行 代码 的 人 。 
前 儿童 会 教 你 设置 Python 运行 环境 ， 告 诉 你 计算 机 是 如 何 看 待 数据 并 对 其 进行 简单 处 理 
的 。 你 很 快 就 能 掌握 在 电子 表格 (包括 CSV 文件 ) 和 数据 库 中 处 理 数据 的 方法 。 


刚 开 始 ， 你 可 能 会 觉得 这 样 做 是 一 种 退步 ， 如 果 你 能 熟练 使 用 Excel， 这 种 感受 会 更 加 强 
烈 。 以 前 你 只 需 复 制 粘贴 就 能 完成 的 工作 ， 现 在 却 要 繁 费 苦心 地 告诉 Python 如 何在 列 的 每 
个 单元 格 之 间 循环 ， 这 效率 太 低 了 ， 想 想 就 令 人 泪 丧 (特别 是 当 你 儿 次 三 番地 回头 去 找 某 
一 处 输入 错误 的 时 候 )。 但 是 当 你 逐渐 掌握 了 Python 之 后 ， 就 会 不 断 地 发 现 它 的 真正 价值 
所 在 ， 而 其 中 一 个 极 好 的 例子 就 是 它 可 以 自动 完成 你 现在 不 断 重复 的 工作 。 


本 书 的 写作 目的 是 让 你 全 面 地 掌握 Python， 然 后 充满 信心 地 写 出 按照 你 的 期 望 运行 的 有 
效 代码 。 一 开始 输入 一 些 代码 或 许 是 个 好 主意 ， 这 样 你 就 会 熟悉 像 制 表 符 、 闭 括号 和 引用 
之 类 的 技术 细节 。 但 是 ， 本 书 中 的 所 有 代码 在 网 上 都 能 找到 (https://github.com/cbrownley/ 
foundations-for-analytics-with-python) 。 你 在 做 自己 的 工作 时 ， 完 全 可 以 通过 复制 粘贴 来 重 
用 这 些 代码 。 没 关系 ! 适时 地 进行 复制 和 粘贴 也 是 高 效 编程 的 一 部 分 。 在 阅读 本 书 的 同时 
完成 示例 程序 ， 会 使 你 更 好 地 理解 示例 代码 的 原理 。 


视 你 在 成 为 程序 员 的 道路 上 好 运 连连 | 


为 什么 要 读 这 本 书 ， 为 什么 要 学 习 这 些 技能 
如 果 你 经 常 做 数据 处 理工 作 ， 就 一 定 会 为 学 习 编 程 而 兴奋 。 学 习 编 程 的 一 个 好 处 是 ， 你 可 
以 完成 那些 靠 手 工 难以 完成 或 者 根本 不 可 能 完成 的 数据 处 理 与 分 析 工 作 。 可 能 你 已 经 遇 到 
了 这 样 的 问题 ， 需要 处 理 的 文件 包含 太 多 数据 ， 以 至 于 打开 文件 都 非常 困难 或 者 根本 不 可 
行 。 即 使 打开 了 这 些 文件 ， 手 动 处 理 也 会 花费 大 量 时 间 ， 并 且 极 易 出 错 ， 因 为 你 对 数据 进 
行 的 任何 修改 都 需要 很 长 时 间 才 能 更 新 ， 而 且 面 对 如 此 多 的 数据 ， 进 行 修 改 时 很 容易 漏 掉 
某 一 行 或 某 一 列 。 你 可 能 还 遇 到 了 其 他 情况 ， 如 需要 处 理 大 量 的 文件 ， 以 至 于 手动 处 理 根 
本 不 可 能 完成 。 有 些 时 候 ， 你 需要 的 数据 来 自 于 几 十 、 几 百 甚 至 上 千 个 文件 。 当 所 需 的 
文件 数量 不 断 增 加 时 ， 手 动 处 理会 变 得 越 来 越 困 难 。 在 以 上 所 有 这 些 情况 之 下 ， 写 一 个 
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Python 脚本 来 处 理 文 件 就 可 以 解决 你 的 问题 ， 因 为 Python 脚本 可 以 快速 有 效 地 处 理 大 型 
文件 和 大 批量 的 文件 。 


学 习 编 程 的 另 一 个 好 处 是 ， 你 可 以 自动 地 重复 数据 处 理 和 数据 分 析 过 程 。 在 很 多 情况 下 ， 我 
们 针对 数据 做 的 都 是 耗 时 的 重复 性 工作 。 例 如 ， 一 般 的 数据 管理 过 程 是 ， 先 从 客户 或 供应 
商 处 获取 数据 ， 然 后 提取 并 保留 所 需 的 数据 ， 之 后 还 可 能 会 进行 一 些 数据 转换 或 重新 格式 
化 ， 最 后 将 数据 保存 到 数据 库 或 数据 仓库 中 [这 就 是 数据 科学 家 熟知 的 数据 ETL (extract, 
transform、load， 即 抽取 、 转 换 和 加 载 ) 过 程 ]。 类 似 地 ， 典 型 的 数据 分 析 过 程 包括 数据 获 
取 、 数 据 准 备 、 数 据 分 析 和 结果 展示 。 在 数据 管理 和 数据 分 析 过 程 中 ， 一 旦 建立 了 流程 ， 就 
可 以 编写 Python 代码 来 进行 各 种 操作 。 通 过 创建 Python 脚本 来 执行 操作 ， 你 可 以 将 耗 时 的 
重复 性 工作 简化 为 执行 一 个 脚本 ， 并 用 节省 下 来 的 时 间 去 做 其 他 更 有 意义 的 工作 。 


最 重要 的 是 ， 在 进行 数据 处 理 和 数据 分 析 时 ， 使 用 Python 脚本 代替 手动 操作 可 以 减 小 出 错 
的 可 能 性 。 手 动 进行 数据 处 理 时 ， 非 常 可 能 出 现 复制 粘贴 错误 或 输入 错误 。 导 致 出 错 的 原 
因 有 很 多 : 你 可 能 因 过 于 匆忙 而 忽略 了 错误 ,或 者 有 些 事 导致 你 分 心 了 ， 或 者 仅 是 因为 你 
太 累 了 。 而 且 ， 当 你 处 理 大 型 文件 或 大 批量 的 文件 ， 或 者 进行 重复 性 操作 时 ， 出 错 的 可 能 
性 会 更 大 。 相 反 ，Python 脚本 从 来 不 会 分 心 或 疲劳 。 一 旦 你 调试 好 脚本 ， 确 认 它 可 以 按照 
你 的 期 望 处 理 数 据 ， 它 就 会 一 如 既往 、 不 知 疲倦 地 工作 下 去 。 


最 后 ， 学 习 编 程 非常 有 趣 ， 而 且 能 提高 自身 能 力 。 只 要 熟悉 了 基本 的 语法 ， 你 就 会 非常 乐 
于 找到 所 需 的 语言 功能 ， 然 后 将 它们 组 合 在 一 起 ， 以 完成 整体 的 数据 分 析 目 标 。 至 于 代码 
和 语法 ， 网 上 有 许多 示例 可 以 教会 你 如 何 使 用 专门 的 功能 来 完成 特定 的 任务 。 不 过 ， 这 些 
示例 虽 能 提供 帮助 ， 但 是 你 需要 通过 自己 的 创造 力 和 解决 问题 的 能 力 来 弄 清 楚 如 何 修 改 这 
些 代码 ， 以 使 它们 满足 你 的 实际 需要 。 找 到 合适 的 代码 ， 并 想 办 法 让 它们 为 你 工作 ， 这 是 
个 非常 有 意思 的 过 程 。 此 外 ， 学 习 编程 能 极 大 地 提高 自身 的 能 力 。 举 个 例子 ， 考 虑 一 下 我 
前 面 提 到 过 的 情况 ， 即 要 处 理 大 型 文件 和 大 批量 文件 。 如 果 不 会 编程 ， 那 么 你 要 么 需要 花 
费 大 量 时 间 ， 要 么 束手无策 。 一 旦 学 会 了 编程 ， 你 就 可 以 通过 Python 脚本 轻松 愉快 地 解决 
所 有 问题 。 有 些 数据 处 理 和 数据 分 析 任 务 以 前 是 非常 困难 或 根本 不 可 能 完成 的 ， 但 是 现在 
你 都 可 以 轻松 搞定 ， 这 会 使 你 充满 信心 ， 能 量 爆棚 ， 从 而 积极 主动 地 寻找 更 多 的 机 会 ， 使 
用 Python 来 迎接 数据 处 理 方面 的 挑战 。 


目标 读者 


本 书 的 目标 读者 是 那些 经 常 从 事 数 据 处 理工 作 ， 又 具有 极 少 或 根本 没有 编程 经 验 的 人 。 书 
中 的 示例 覆盖 了 常用 的 数据 源 和 数据 格式 ， 包 括 文 本 文件 、 喜 号 分 隔 值 (CSV) 文件 、 
Excel 文件 和 数据 库 。 在 某 些 情况 下 ， 由 于 文件 中 数据 过 多 ， 或 由 于 文件 数量 太 多 ， 造 成 
文件 难以 打开 或 不 能 通过 手动 处 理 。 在 其 他 一 些 情况 下 ， 从 文件 中 抽取 和 使 用 数据 的 过 程 
非常 耗 时 并 且 容 易 出 错 。 在 这 些 情况 下 ， 如 果 你 不 会 编程 ， 就 会 将 大 量 时 间 浪 费 在 数据 搜 
索 、 打 开 与 关闭 文件 ， 以 及 复制 和 粘贴 数据 上 面 。 
鉴于 你 可 能 从 未 运行 过 脚本 ， 本 书 从 最 基本 的 操作 开始 ， 介 绍 如 何在 文本 文件 中 编写 代码 
以 创建 Python 脚本 。 然 后 ， 我 们 会 学 习 如 何 通过 命令 行 窗口 (Windows JA) 或 终端 窗 
O (macOS HP) 来 运行 Python 脚本 。( 如 果 你 做 过 一 点 编程 ， 可 以 跳 过 第 1 章 ， 直 接 学 
习 第 2 章 中 的 数据 分 析 内 容 。) 
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本 书 的 编写 方式 特别 适合 编程 新 手 。 书 中 提供 的 示例 包含 了 完成 某 项 任务 所 需 的 全 部 
Python 代码 ， 而 不 是 仅 提供 一 些 代码 片段 ， 让 你 自己 将 它们 组 合 起 来 以 完成 任务 。 你 以 后 
可 能 会 经 常 使 用 本 书 作 为 参考 ， 而 且 会 发 现 书 中 的 代码 确实 有 帮助 。 最 后 ， 正 所 谓 “ 一 图 
胜 千言 "， 书 中 使 用 了 大 量 屏幕 截图 来 展示 输入 文件 、Python 脚本 、 命 令 行 窗口 、 终 端 窗 
口 和 输出 文件 ， 这 样 你 就 可 以 真实 地 看 到 如 何 创 建 输入 、 代 码 、 命 令 和 输出 了 。 


会 详细 讲解 代码 的 原理 ， 也 会 推荐 一 些 工 具 供 你 使 用 。 这 种 方法 可 以 帮助 你 打下 坚实 的 
基础 ， 以 理解 在 程序 背后 到 底 发 生 了 什么 。 有 时 候 ， 你 需要 在 Google 上 搜索 问题 的 解决 
方案 并 找到 一 些 有 用 的 代码 。 做 完了 书 中 的 练习 之 后 ， 你 可 以 更 好 地 理解 这 些 代 码 的 工作 
原理 ， 也 就 是 说 ， 你 不 但 知道 如 何 根据 具体 情况 使 用 它们 ， 而 且 知 道 在 出 现 问题 时 如 何 进 
行 修复 。 因 为 你 在 每 一 章 中 都 会 编写 一 些 代码 ， 所 以 你 会 发 现 可 以 将 本 书 作 为 参考 书 ， 或 
此 导 手册 ， 然 后 在 里 面 找到 完成 具体 任务 的 方法 。 但 是 请 记 住 ， 这 仅 是 一 本 “学 习 如 何 编 
程 ” 的 书 ， 你 还 需要 不 断 提高 和 扩展 编程 技能 ， 以 便 综合 运用 它们 来 完成 各 种 任务 。 


为 什么 使 用 Windows 


本 书 中 的 大 部 分 示例 都 是 演示 在 Microsoft Windows 系统 下 如 何 创建 和 运行 Python 脚本 。 
将 重点 放 在 Windows 系统 上 的 原因 很 简单 : 我 想 让 本 书 帮助 尽 可 能 多 的 人 。 根 据 估计 ， 大 
多 数 台 式 机 和 笔记 本 电脑 (特别 是 用 于 商业 分 析 的 计算 机 ) 运行 的 是 Windows 操作 系统 。 
例如 ， 根 据 Net Applications 的 调查 ， 截 至 2014 年 12 H, Microsoft Windows 占领 了 大 约 
90% 的 台式 机 和 笔记 本 电脑 操作 系统 市 场 。 因 为 我 想 让 本 书 满足 台式 机 用 户 和 笔记 本 电脑 
用 户 的 需求 ， 而 且 这 些 电脑 中 多 数 都 安装 了 Windows 操作 系统 ， 所 以 本 书 将 集中 讲述 如 何 
在 Windows 系统 下 创建 和 运行 Python 脚本 。 


尽管 本 书 将 重点 放 在 了 Windows 上 ， 但 在 适当 情况 下 ， 我 也 提供 如 何在 macos 系统 上 创 
建 和 运行 Python 脚本 的 示例 。 不 论 在 哪 种 机 器 上 运行 ，Python 中 几乎 所 有 功能 的 表现 都 
是 一 样 的 。 当 因为 操作 系统 不 同 而 出 现 差别 时 ， 我 会 分 别 给 出 具体 的 说 明 。 例 如 ， 第 1 章 
的 第 一 个 例子 演示 了 如 何在 Microsoft Windows 和 macOS 系统 下 创建 和 运行 Python 脚本 。 
类 似 地 ， 第 2 章 和 第 3 章 的 第 一 个 例子 也 演示 了 如 何在 Windows 和 macOS 系统 下 创建 和 
运行 Python 脚本 。 此 外 ， 第 8 章 涵盖 了 两 种 操作 系统 ， 介 绍 了 如 何在 Windows 中 建立 计 
划 任 务 以 及 如 何在 macOS 中 建立 定时 作业 。 如 果 你 是 Mac 用 户 ， 可 以 使 用 每 章 的 第 一 个 
例子 作为 模板 ， 来 学 习 如 何 创 建 Python 脚本 ， 如 何 使 其 可 以 执行 ， 以 及 如 何 运 行 脚 本 ， 然 
后 重复 这 些 步骤 来 创建 和 运行 每 章 中 其 余 的 示例 程序 。 


为 什么 使 用 Python 


如 有 果 你 的 目的 是 学 习 一 门 编程 语言 来 使 数据 处 理 和 数据 分 析 任务 规模 化 和 自动 化 ， 那 么 
Python 绝对 是 一 个 好 的 选择 。Python 的 一 个 显著 特点 就 是 使 用 空白 字符 和 缩 进来 表示 行 的 
结尾 和 代码 分 块 ， 这 与 很 多 其 他 语言 不 同 ， 其 他 语言 使 用 特殊 字符 〈 比 如 分 号 和 花 括号 ) 
来 达到 同样 的 目的 。Python 的 这 个 特点 使 你 一 眼 就 能 看 出 程序 的 组 织 方式 。 


在 其 他 语言 中 ， 特 殊 字 符 的 使 用 对 于 编程 新 手 来 说 是 个 困扰 ， 原 因 至 少 有 两 个 。 第 一 ， 这 
使 得 学 习 曲 线 更 长 并 且 更 加 陡峭 。 当 你 学 习 编 程 时 ， 实 质 上 是 在 学 习 一 门 新 的 语言 ， 你 必 




























































































































































































须 花 时 间 学 习 这 些 特殊 字符 的 用 法 ， 然 后 才能 
码 难 以 阅读 。 这 是 























明代 码 块 。 如 果 没 有 缩 进 ， 多 个 代码 块 看 上 去 就 是 乱七八糟 的 。 


Python 使 用 空白 字符 和 缩 进 来 表示 代码 分 块 ， 而 不 使 用 分 号 和 花 括 号 ， 这 样 就 避免 了 上 述 问 
题 。 当 你 阅读 Python 代码 时 ， 你 的 视线 会 集中 在 实际 的 代码 行 上 ， 而 不 是 代码 块 的 分 隔 符 


上 


在 哪里 结束 ， 新 的 代码 块 又 在 哪里 开始 。 而 且 ，Python 社 
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效 地 使 用 这 门 语 言 。 第 二 ， 特 殊 字符 使 代 
因为 在 使 用 分 号 和 花 括 号 表示 代码 块 的 语言 中 ， 并 不 总 是 使 用 缩 进 来 标 


因为 代码 周围 只 有 空白 字符 。Python 要 求 代码 块 必 须 缩 进 ， 这 样 你 会 很 容易 看 出 代码 块 
区 特别 强调 代码 的 可 读 性 ， 因 此 已 














经 形成 了 一 种 文化 ， 就 是 一 定 要 书写 易于 阅读 和 理解 的 代码 。Python 的 这 些 特 点 使 学 习 曲 线 
更 短 并 且 更 加 平坦 ， 与 其 他 语言 相 比 ， 使 用 Python 进行 数据 处 理 可 以 更 快 也 更 容易 上 手 。 


Python 适用 于 数据 处 理 与 分 析 的 另 一 个 显著 特点 ， 是 其 具有 大 量 的 标准 模块 、 


及 函数 ， 可 以 非常 方便 地 完成 一 般 的 数据 处 型 

































































附加 模块 以 


与 分 析 操 作 。 内 建 库 和 标准 库 中 的 模块 和 国 


数 是 Python 的 标准 配置 ， 所 以 只 要 你 下 载 并 安装 了 Python， 就 可 以 立即 使 用 这 些 内 建 的 


模块 和 国 数 。 在 Python prt Ze A h 
内 建 模块 和 标准 模块 的 介绍 。Python 附加 模块 需要 单独 


供 的 附加 功能 。 你 可 以 在 Python 程序 包 索 引 页 面 (https:/pypi.python.org/pypi) 详细 查看 























很 多 附加 模块 的 介绍 。 
标准 库 中 的 模块 提供 的 功能 包括 读 取 各 种 类 型 的 文件 〈 如 文本 文件 、CSV、JSON、 


HTML, XML 等 )， 处 理 



































(https://docs.python.org/3/library) 中 ， 你 可 以 找到 所 有 
下载 并 安装 ， 然 后 才能 使 用 它们 提 


数值 、 字 符 串 和 日 期 型 数据 ， 使 用 正则 表达 式 进行 模式 匹配 ， 解 


Dr CSV 文件 ， 计 算 基 本 的 统计 量 ， 以 及 向 各 种 类 型 的 输出 文件 和 磁盘 写 入 数据 。 有 用 的 
附加 模块 太 多 ， 无 法 一 一 介绍 。 本 书 要 讨论 和 使 用 的 附加 模块 如 下 所 示 。 


如 果 
语言 ， 那 么 Python SAEI 


可 以 方便 地 完成 许多 一 般 的 数据 处 到 








xlrd 和 xlwt 

功能 : 解析 与 读 写 Microsoft Excel THH. 
mysqlclient/MySQL-python/MySQLdb 

功能 : 连接 MySQL 数据 库 ， 在 数据 库 表 上 运行 查询 。 


pandas 
































建 各 种 类 型 的 统计 图 表 。 
statsmodels 
功能 : 估计 各 种 统计 模型 ， 包 括 线性 回归 模型 、 广 义 线 性 模型 和 分 类 模型 。 


scikit-learn 








功能 : BERANE EL, eA; FRA RIF BORA Sit es Gl 














功能 : 估计 机 器 学 习 统 计 模型 ， 包 括 回归 、 分 类 和 聚 类 ， 以 及 执行 数据 处 下 





和 交叉 验证 。 



































分 析 任务 。 


EE、 维度 归 约 





尔 是 编程 新 手 ， 并 且 正 在 寻找 一 门 可 以 使 数据 处 理 与 分 析 任 务 自动 化 和 规模 化 的 编程 
E 想 的 选择 。Python 对 于 空白 字符 和 缩 进 的 强调 使 代码 更 易于 阅 
读 和 理解 ， 因 而 和 其 他 语言 相 比 ， 它 的 学 习 曲 线 没有 那么 陡峭 。Python 的 内 建 库 和 附加 库 
E 和 分 析 操 作 ， 让 你 可 以 轻松 地 一 站 式 完成 数据 处 理 与 
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基础 Python 和 pandas 


pandas 是 Python 的 一 个 功能 强大 的 附加 模块 ， 提 供 对 数据 进行 读 / 写 、 组 合 、 转 换 和 管理 
的 功能 ， 同 时 还 可 以 计算 统计 量 并 创建 统计 图 表 。 在 完成 数据 处 理 任 务 时 ， 使 用 pandas 提 
供 的 功能 可 以 大 大 减轻 你 的 编码 工作 量 。 这 个 模块 深 受 数据 分 析 师 和 其 他 Python 使 用 者 
青睐 ， 因 为 它 的 功能 实用 且 强 大 ， 运 行 速度 快 ， 使 用 简单 ， 能 够 减少 完成 任务 所 需 的 代码 
量 。 正 因为 pandas 功能 强大 且 深 受 欢迎 ， 所 以 本 书 将 向 你 介绍 它 。 本 书 在 第 2 章 和 第 3 章 
中 提供 pandas 版 的 Python 脚本 ， 在 第 6 章 中 介绍 如 何 使 用 pandas 创建 统计 图 表 ， 在 第 7 
章 中 演示 如 何 通过 pandas 计算 各 种 统计 量 。 我 建议 你 学 习 一 下 Wes McKinney 的 著作 《 利 
用 Python 进行 数据 分 析 》 '。 

同时 ， 如 果 你 是 编程 新 手 ， 我 还 建议 你 学 习 一 下 基本 的 编程 技能 。 一 旦 具有 了 编程 技能 ， 
你 就 可 以 扩展 自己 解决 问题 的 能 力 。 你 可 以 将 复杂 的 问题 分 解 成 几 个 较 小 的 问题 ， 分 别 解 
决 ， 然 后 将 它们 组 合 起 来 解决 更 大 的 问题 。 你 还 可 以 培养 出 一 种 直觉 ， 去 决定 使 用 哪 种 数 
据 结构 和 算法 来 有 效 且 高 效 地 解决 各 种 问题 。 此 外 ， 你 还 会 遇 到 像 pandas 这 样 的 附加 模块 
无 法 解决 或 者 无 法 以 你 需要 的 方式 解决 的 问题 。 在 这 种 情况 下 ， 如 果 你 没有 基本 的 编程 技 
能 ， 就 会 束手无策 。 相 反 ， 如 果 你 具有 了 编程 技能 ， 就 可 以 创建 所 需 功 能 ， 从 而 独立 解决 
问题 。 能 够 独立 解决 编程 问题 是 非常 令 人 振奋 的 ， 并 能 极 大 提升 个 人 能 

因为 本 书 是 面向 编程 新 手 的 ， 所 以 我 会 将 重点 放 在 基础 的 、 通 用 的 编程 技能 上 。 比 如 ， 第 
1 章 介 绍 数 据 类 型 、 数 据 容器 、 控 制 流 、 函 数 、if-else 逻辑 和 文件 读 写 等 基本 概念 。 此 
外 ， 在 第 2 章 和 第 3 章 中 ， 每 种 脚本 都 提供 两 个 版 本 的 实现 方式 ， 基础 Python 版 和 pandas 
版 。 在 每 个 案例 中 ， 我 会 首先 讨论 基础 Python 版 的 实现 ， 让 你 学 会 独立 编码 解决 问题 ， 然 
后 再 给 出 pandas 版 的 实现 。 我 希望 你 能 够 从 基础 Python 版 中 学 会 基本 的 编程 技能 ， 这 样 
在 使 用 pandas 版 时 ， 你 就 能 够 更 加 深刻 地 理解 pandas 简化 了 的 概念 和 操作 。 




























































































Anaconda Python 


当 开 始 使 用 Python 时 ， 有 很 多 程序 可 以 用 来 编写 代码 。 例 如 ， 如 果 你 从 Python.org 下 载 了 
Python， 在 安装 完成 之 后 ， 就 会 得 到 一 个 具有 图 形 用 户 界面 (GUI) 的 文本 编辑 器 ， 它 叫 
{E Idle。 另 外 ， 你 可 以 下 载 [Python Notebook， 在 一 种 基于 Web 的 交互 式 环境 下 编写 代码 。 
如 果 你 在 macos 系统 下 工作 ， 或 者 在 Windows 系统 上 安装 了 Cygwin， 那 么 就 可 以 在 终端 
窗口 中 使 用 Nano、Vim 或 Emacs 等 内 置 文本 编辑 器 编写 代码 。 如 果 你 已 经 熟悉 了 上 面 的 
任意 一 种 程序 ， 那 么 就 可 以 随意 使 用 它 来 处 理 本 书 中 的 示例 代码 。 


但 是 ， 这 里 我 要 介绍 如 何 从 Continuum Analytics 下 载 并 安装 免费 的 Anaconda Python 发 行 
版 ， 因 为 与 其 他 版 本 相 比 ， 它 对 于 编程 新 手 来 说 具有 很 多 优点 ， 而 且 同 样 适合 编程 老手 ! 
Anaconda Python 最 主要 的 优点 是 ， 它 会 预先 安装 几 百 个 最 流行 的 Python 附加 模块 ， 所 以 
你 无 需 一 个 一 个 地 安装 这 些 模块 以 及 它们 的 依赖 模块 。 举 例 来 说 ， 本 书 要 使 用 的 所 有 附加 
模块 在 Anaconda Python 中 都 预先 安装 好 了 。 




























































































iE 1: Wes McKinney 是 pandas 模块 最 初 的 开发 者 ， 他 的 这 本 书 是 学 习 pandas、NumPy 和 [Python 的 绝 好 教 
材 ， 如 果 你 想 扩 展 一 下 使 用 Python 进行 数据 分 析 的 知识 ， 这 些 是 你 应 该 学 习 的 附加 模块 。 
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另 一 个 优点 是 ， 它 同时 提供 了 一 个 名 叫 Spyder 的 集成 开发 环境 (IDE), Spyder 具有 非常 方 
便 实用 的 界面 ， 供 你 编写 、 运 行 和 调试 代码 ， 还 可 以 安装 程序 包 和 启动 IPython Notebook, 
另外 ， 它 还 具有 很 多 美妙 的 功能 ， 比 如 在 线 文档 链接 、 语 法 着 色 、 键 盘 快 捷 方式 和 错误 提 
示 。 

Anaconda Python 还 有 一 个 优点 是 跨 平台 性 一 一 具有 Linux, Mac 和 Windows 3 个 版 本 。 所 
以 ， 如 果 你 在 Windows 系统 下 熟悉 了 它 的 用 法 ， 在 转 到 Mac 系统 时 ,仍然 可 以 使 用 同样 
熟悉 的 界面 。 


如 果 你 已 经 熟悉 了 Python 和 所 有 可 用 的 附加 程序 包 ， 那 么 在 使 用 Anaconda Python 时 需要 
注意 一 点 ， 就 是 安装 附加 程序 包 时 的 语法 有 些 差别 。 在 Anaconda Python 中 ， 你 需要 使 用 
conda install 命令 。 举 例 来 说 ， 要 安装 附加 程序 包 argparse， 你 应 该 输入 conda intall 
argparse。 这 种 语法 与 通常 的 pip install 是 不 同 的 。( 如 果 你 从 Python.org 下 载 并 安装 了 
Python ,那么 安装 argparse 包 应 该 使 用 python -m pip install argparse,) Anaconda Python 
也 允许 你 使 用 pip install 语法 ， 所 以 实际 上 可 以 使 用 任何 一 种 方式 ， 但 是 当 你 学 习 如 何 安 
装 附加 程序 包 时 ， 应 该 知道 这 一 点 微小 的 区 别 。 












































安装 Anaconda Python (Windows 或 Mac ) 


要 安装 Anaconda Python ， 需 遵循 以 下 步骤 。 

(访问 http://continuum.io/downloads (网 站 会 自动 检测 出 你 的 操作 系统 ， 即 Windows 或 
Mac), 

(2) 选择 Windows 64-bit Python 3.5 Graphical Installer (如 果 你 使 用 Windows) 或 者 Mac OS 
X 64-bit Python 3.5 Graphical Installer (如 果 你 使 用 Mac). 

(3) 双击 已 下 载 的 .exe 文件 (Windows 系统 ) 或 .pkg 文件 (Mac 系统 ) 。 

(4) 按照 安装 程序 的 指示 操作 。 


文本 编辑 器 


尽管 本 书 中 会 使 用 Anaconda Python 和 Spyder， 但 是 熟悉 一 下 其 他 可 用 于 编写 Python 代 
码 的 文本 编辑 器 还 是 有 意义 的 。 例 如 ， 如 果 你 不 想 使 用 Anaconda Python， 可 以 简单 地 从 
Python.org 下 载 安 装 Python， 然 后 使 用 像 Notepad. (Windows 系统 ) 和 TextEdit (macOS 
系统 ) 这 样 的 文本 编辑 器 。 要 使 用 TextEdit 编写 Python 脚本 ， 你 需要 打开 TextEdit， 将 
TextEdit 一 Preferences 下 面 的 单 选 按钮 从 “Rich text” 改 为 “Plain text”， 这 样 新 文件 就 会 
以 普通 文本 方式 打开 。 然 后 你 就 可 以 使 用 扩展 名 .py 保存 文件 了 。 


使 用 文本 编辑 器 编写 代码 的 好 处 是 ， 它 已 经 安装 在 你 的 计算 机 上 了 ， 所 以 你 不 用 担心 如 何 
下 载 和 安装 一 个 新 的 软件 。 大 多 数 台 式 机 和 笔记 本 电脑 在 出 厂 时 都 带 有 文本 编辑 器 ， 如 果 
你 不 得 不 使 用 一 台 没有 Spyder 或 终端 窗口 的 计算 机 ， 那 就 使 用 其 自 带 的 任意 文本 编辑 器 快 
速 开始 工作 吧 。 


尽管 完全 可 以 使 用 像 Notepad 和 TextEdit 这 样 的 文本 编辑 器 编写 Python 代码 ， 效 率 也 很 
高 ， 但 是 你 还 可 以 下 载 其 他 免费 的 文本 编辑 器 ， 因 为 它们 提供 了 一 些 额 外 的 功能 ， 包 括 代 
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高 亮 显示 、 制 表 符 长 度 调整 ， 以 及 多 行 缩 进 与 减少 缩 进 。 这 些 功 能 (特别 是 代码 高 亮 显 
和 多 行 缩 进 与 减少 缩 进 ) 非常 有 用 ， 尤 其 是 在 你 学 习 如 何 编写 和 调试 代码 时 。 


外 是 一 个 提供 这 些 功能 的 免费 文本 编辑 器 的 不 完全 列表 : 
Notepad++ (http://notepad-plus-plus.org, Windows) 

















Sublime Text (http://www.sublimetext.com, Windows 和 Mac) 
jEdit (http://www.jedit.org, Windows 和 Mac) 
TextWrangler (http://www.barebones.com/products/textwrangler, Mac) 


说 一 遍 ， 本 书 使 用 Anaconda Python 和 Spyder， 但 是 你 可 以 随意 使 用 一 种 文本 编辑 器 处 
示例 代码 。 如 果 你 下 载 了 某 种 文本 编辑 器 ， 请 在 网 上 查 一 下 可 以 用 来 进行 多 行 缩 进 与 减 
缩 进 的 按键 组 合 。 当 开始 试 着 调试 代码 块 时 ， 这 会 使 你 轻松 许多 。 





下 载 本 书 资料 


本 


书 中 的 所 有 Python 脚本 、 输 入 文件 和 输出 文件 都 可 以 在 这 个 网 址 找到 : https://github. 








com/cbrownley/foundations-for-analytics-with-python。 
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以 将 整个 文件 夹 下 载 到 你 的 计算 机 上 ， 不 过 点 击 文件 名 然后 将 脚本 复制 粘贴 到 你 的 文本 
辑 器 中 会 更 简单 。(GitHub 是 进行 代码 分 享 与 协作 的 一 个 网 站 ， 非 常 适合 跟踪 项 目的 不 
版 本 并 管理 协作 过 程 ， 但 是 它 的 学 习 曲 线 相当 陡峭 。 当 你 准备 开始 分 享 自己 的 代码 和 提 
对 他 人 代码 的 改进 时 ， 可 以 参考 一 下 Chad Thompson 的 教程 Learning Git (http://shop. 














oreilly.com/product/110000769.do, Infinite Skills) 。 


各 章 内 容 简介 


第 1 章 Python 基础 

这 一 章 介 绍 如 何 创建 和 运行 Python 脚本 。 该 章 的 重点 在 于 Python 的 基本 语法 和 元 素 ， 
你 需要 了 解 它们 ， 才 能 学 习 后 面 的 章节 。 例 如 ， 讨 论 像 数值 和 字符 串 这 样 的 基本 数据 类 
型 ， 以 及 如 何 对 它们 进行 操作 ， 介 绍 主要 的 数据 容器 (列表 、 元 组 和 字典 )， 以 及 使 用 
它们 存储 和 操作 数据 的 方法 ， 介绍 如 何 处 理 日 期 型 数据 ， 因 为 商业 分 析 中 经 常 出 现 日 
期 。 另 外 ， 还 会 讨论 一 些 编程 概念 ， 比 如 控制 流 、 函 数 和 异常 ， 它 们 是 在 编码 中 体现 业 
务 逻辑 以 及 优雅 地 进行 错误 处 理 的 重要 元 素 。 最 后 将 介绍 如 何 使 计算 机 读 入 一 个 和 多 个 
文本 文件 ， 并 且 写 回 到 CSV 格式 的 输出 文件 中 。 这 些 技术 对 于 访问 输入 数据 和 保存 特 
定 的 输出 数据 都 是 非常 重要 的 ， 后 续 章 节 会 更 深入 地 讨论 这 些 问 题 。 

第 2 章 CSV 文件 

这 一 章 介 绍 如 何 读 写 CSV 文件 。 首 先 介 绍 在 不 使 用 Python 内 置 的 csv 模块 情况 下 “ 手 
动 ” 解 析 CSV 格式 的 输入 文件 的 一 个 例子 。 随 后 说 明 这 种 解析 方法 的 次 在 问题 ， 并 通 
过 一 个 示例 说 明 使 用 Python 的 csv 模块 解析 CSV 文件 如 何 能 避免 这 些 问题 。 然 后 讨论 
如 何 使 用 3 种 不 同类 型 的 条 件 逻 辑 从 输入 文件 中 算 选 出 特定 的 行 ， 将 它们 写 入 CSV 格 
式 的 输出 文件 。 接 着 给 出 两 种 不 同 的 方法 ， 以 筛选 出 特定 的 列 ， 并 将 它们 写 入 输出 文 
件 。 在 介绍 了 如 何 读 取 和 解析 单个 CSV 格式 的 输入 文件 后 ， 进 一 步 讨 论 如 何 读 取 和 处 












































理 多 个 CSV 文件 。 这 一 节 中 的 示例 包括 为 每 个 输入 文件 提供 摘要 信息 ， 从 多 个 输入 文 
件 中 连接 数据 ， 以 及 为 每 个 输入 文件 计算 基本 的 统计 量 。 这 一 章 最 后 将 介绍 两 个 不 太 委 
用 的 过 程 示例 ， 包 括 选择 一 组 连续 的 行 和 为 数据 集 添加 标题 行 。 

第 3 章 Excel 文件 

这 一 章 讨论 如 何 使 用 可 下 载 的 扩展 模块 xLrd 读 取 Excel 工作 得 。 首 先 介绍 一 个 Excel 工 
VETER GL (也 就 是 说 明 工作 得 中 包含 多 少 个 工作 表 ， 每 个 工作 表 的 名 称 ， 每 个 工作 表 中 
行 与 列 的 数量 ) 。 因 为 Excel 将 日 期 保存 为 数值 型 数据 ， 所 以 下 一 节 介 绍 如 何 使 用 一 系 
列国 数 将 日 期 格式 化 ， 以 使 它们 显示 为 日 期 形式 而 不 是 数值 形式 。 然 后 ， 讨 论 如 何 使 
用 3 种 不 同类 型 的 条 件 逻 辑 从 单个 工作 表 中 筛选 出 特定 的 行 ， 再 将 它们 写 入 CSV 格式 
的 输出 文件 。 在 此 之 后 ， 介 绍 两 种 不 同 的 方式 来 筛选 特定 的 列 并 写 入 输出 文件 。 在 介绍 
了 如 何 读 取 和 解析 单个 工作 表 之 后 ， 进 一 步 讨 论 如 何 读 取 和 处 理工 作 筹 中 所 有 的 或 者 一 
部 分 工作 表 。 这 几 节 中 的 示例 程序 展示 了 如 何在 工作 表 中 筛选 特定 的 行 与 列 。 在 讨论 了 
如 何 读 取 和 分 析 单 个 工作 短 中 的 任意 数目 的 工作 表 之 后 ， 进 一 步 讨 论 如 何 读 取 和 处 理 多 
个 工作 短 。 这 一 节 中 的 示例 程序 包括 为 每 个 工作 短 提 供 摘 要 信息 ， 从 多 个 工作 得 中 连接 
数据 ， 以 及 为 每 个 工作 短 计 算 基 本 的 统计 量 。 这 一 章 最 后 将 介绍 两 个 不 太 常 用 的 过 程 示 
例 ， 包 括 选择 一 组 连续 的 行 和 为 数据 集 添 加 标题 行 。 

PAS 数据库 

这 一 章 讨 论 如 何在 Python 中 执行 基本 的 数据 库 操作 。 首 先 介绍 如 何 使 用 Python 内 建 
的 sqlite3 模块 ， 这 样 你 就 不 需要 安装 任何 额外 的 软件 了 。 示 例 程 序 说 明了 如 何 执 行 最 
常用 的 数据 库 操 作 ， 包 括 创建 数据 库 和 数据 表 ， 从 CSV. 格式 的 输入 文件 加 载 数据 到 数 
据 库 中 的 表 ， 使 用 CSV 格式 的 输入 文件 更 新 数据 表 中 的 记录 ， 以 及 查询 数据 表 。 使 用 
sqlite3 模块 时 ， 数 据 库 连 接 的 细节 和 与 MySQL, PostgreSQL 和 Oracle 等 其 他 数据 库 
系统 连接 有 轻微 的 差别 。 为 了 说 明 这 种 差别 ， 这 一 章 的 第 二 部 分 演示 了 如 何 同 MySQL 
数据 库 系 统 进行 交互 。 如 果 你 的 计算 机 上 没有 MySQL， 那 么 需要 先 下 载 并 安装 。 然 后 ， 
具体 操作 的 示例 程序 与 sqlite3 示例 相对 照 ， 也 包括 创建 数据 库 和 数据 表 ， 从 CSV 格 
式 的 输入 文件 加 载 数据 到 数据 库 中 的 表 ， 使 用 CSV 格式 的 输入 文件 更 新 数据 表 中 的 记 
录 ， 查 询 数 据 表 ， 以 及 将 查询 结果 写 入 CSV 格式 的 输出 文件 。 这 一 章 两 部 分 的 示例 合 
在 一 起 ， 可 以 详细 又 完整 地 说 明 如 何 使 用 Python 执行 常用 的 数据 库 操作 。 

第 5 章 应 用 程序 

这 一 章 包含 3 个 示例 程序 ， 演 示 了 如 何 综合 使 用 前 面 几 章 介绍 的 技术 解决 3 个 不 同 的 问 
题 ， 它 们 代表 了 一 些 常见 的 数据 处 理 与 分 析 任务 。 第 一 个 应 用 程序 介绍 了 如 何在 大 量 的 
Excel 与 CSV 文件 中 找到 特定 的 记录 。 可 以 想象 ， 用 计算 机 查询 记录 比 手动 查询 要 高 效 
得 多 ， 也 有 趣 得 多 。 打 开 、 搜 索 和 关闭 大 量 文件 绝对 不 是 一 件 有 趣 的 事情 ， 文 件 的 数量 
越 多 ， 完 成 任务 的 难度 就 越 大 。 因 为 这 个 问题 涉及 搜索 CSV 和 Excel 文件 ， 所 以 示例 
程序 会 使 用 第 2 章 和 第 3 章 中 介绍 的 很 多 内 容 。 

第 二 个 应 用 程序 介绍 如 何 将 数据 通过 分 组 或 “ 装 箱 ” 划 分 到 一 个 唯一 的 类 别 ， 并 且 为 每 
个 类 别 计算 统计 量 。 有 具体 的 例子 就 是 对 一 个 记录 客户 服务 包 购 买 的 CSV 文件 [记录 了 
客户 在 什么 时 间 购 买 了 特定 的 服务 包 (也 就 是 铜牌 服务 包 、 银 牌 服务 包 和 金牌 服务 包 )] 
进行 解析 ， 然 后 将 数据 按 客户 姓名 和 服务 包 进行 组 织 ， 通 过 相 加 计算 出 每 个 客户 在 每 种 




























































































































































































服务 包 上 花费 的 时 间 。 这 个 示例 使 用 了 两 个 内 建 模块 ， 创 建 了 一 个 函数 并 将 数据 存储 在 
字典 中 。 字 典 在 第 1 章 中 进行 了 介绍 ， 但 在 第 2 章 、 第 3 章 和 第 4 章 中 都 没有 使 用 过 。 
这 个 程序 还 引入 了 一 种 新 的 技术 : 记录 下 你 刚 处 理 过 的 行 和 正在 处 理 的 行 ， 然 后 根据 这 
两 行 的 值 计算 出 统计 量 。 这 两 种 技术 (通过 字典 来 分 组 或 装 箱 数据 ， 以 及 记录 当前 行 和 
前 一 行 ) 都 非常 强大 ， 让 你 能 够 处 理 很 多 和 时 间 相 关 的 数据 分 析 任 务 。 

第 三 个 应 用 程序 介绍 如 何 解析 文本 文件 ， 将 数据 分 组 或 装 箱 划分 类 别 ， 然 后 按 类 别 计算 统 
计量 。 有 具体 的 例子 是 解析 MySQL 错误 日 志文 件 ， 按 照 日 期 和 错误 信息 组 织 数据 ， 然 后 计 
算出 每 种 错误 信息 在 每 一 天 出 现 的 次 数 。 这 个 示例 回顾 了 如 何 解 析 文 本 文件 ， 这 种 技术 在 
第 1 章 中 简要 介绍 过 。 这 个 示例 也 展示 了 如 何 将 信息 分 别 存 储 在 列表 和 字典 中 ， 以 用 来 创 
建 输出 文件 的 标题 行 和 数据 行 ， 它 还 可 以 帮 你 回忆 一 下 通过 基本 字符 串 操 作 来 解析 文本 文 
件 的 方法 。 同 时 ， 这 也 是 使 用 舱 套 字典 来 分 组 或 装 箱 数据 以 划分 类 别 的 一 个 绝 好 示例 。 

第 6 章 图 与 图 表 

在 这 一 章 中 ， 你 要 学 习 如 何 使 用 Python 创建 常用 的 统计 图 和 图 表 。 你 将 使 用 4 个 制 
图 库 : matplotlib, pandas, ggplot 和 seaborn。 首 先 使 用 matplotlib， 因 为 它 历史 侯 
A RRES (KE, pandas 和 seaborn 都 是 在 matplotlib 的 基础 上 开发 出 来 的 )。 
matplotlib 一 节 介 绍 如 何 创 建 直 方 图 、 条 形 图 、 折 线 图 、 散 点 图 和 箱 线 图 。pandas 一 
节 讨 论 使 用 pandas 简化 语法 来 创建 这 些 统计 图 的 几 种 方式 ， 并 演示 如 何 使 用 pandas 创 
建 统 计 图 。ggplot 一 届 指出 了 这 个 库 与 R 和 图 形 语法 在 历史 上 的 联系 ， 并 演示 如 何 使 
用 goplot 创建 常用 的 统计 图 。 最 后 ，seaborn 一 市 讨论 如 何 创 建 标准 统计 图 ， 以 及 如 何 
创建 使 用 matplotlib 难以 创建 的 图 表 。 

第 7 章 ”描述 性 统计 与 建 模 

这 一 章 讨论 如 何 生 成 标准 摘要 统计 量 ,， 以 及 如 何 使 用 pandas 和 statsmodels 包 估 计 回 
归 模 型 与 分 类 模型 。pandas 中 有 计算 集中 趋势 测度 (例如 : 均值 、 中 位 数 和 众 数 ) 的 
函数 ， 也 有 计算 分 散 程度 (例如: 方差 和 标准 差 ) 的 函数 ， 还 有 进行 数据 分 组 的 函数 用 
于 轻松 计算 这 些 统计 量 。statsmodels 包 中 的 函数 可 以 估计 多 种 类 型 的 回归 和 分 类 模型 。 
这 一 章 介 绍 了 如 何 基 于 pandas 数据 框 中 的 数据 建立 多 元 线性 回归 和 人 逻辑 斯 蒂 分 类 模型 ， 
以 及 如 何 使 用 模型 为 新 的 输入 数据 预测 输出 值 。 
第 8 章 按 计划 自动 运行 脚本 

这 一 章 介 绍 如 何在 Windows fll macOS 系统 上 安排 脚本 定期 自动 运行 。 在 这 一 章 之 前 ， 
脚本 都 是 通过 命令 行 方 式 和 手动 运行 的 。 在 调试 脚本 和 临时 运行 时 ， 通 过 命令 行 手动 运行 
脚本 是 非常 方便 的 。 但 是 ， 如 果 脚 本 需要 定期 运行 (例如; 每 天 、 每 周 、 每 月 或 每 个 季 
度 )， 或 者 需要 定期 运行 很 多 脚本 的 话 ， 手 动 运行 就 会 非常 麻烦 。 在 Windows 系统 中 ， 
你 可 以 创建 任务 计划 来 定期 自动 运行 脚本 。 在 macOS 系统 中 ， 你 需要 创建 定时 任务 ， 
它 可 以 实现 同样 的 功能 。 这 一 章 用 若干 屏幕 截图 展示 了 如 何 创建 和 运行 任务 计划 和 定时 
插 务 。 通 过 安排 脚本 定期 运行 ， 你 就 不 会 筷 记 运行 脚本 ， 而 且 能 够 实现 比 通过 命令 行 手 
动 运行 脚本 更 强大 的 功能 。 

第 9 章 从 这 里 启 航 

最 后 一 章 介绍 Python 中 其 他 的 内 置 和 扩展 模块 以 及 函数 ， 它 们 对 于 数据 处 理 与 数据 分 
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析 任 务 也 是 非常 重要 的 。 这 一 章 还 介绍 了 其 他 的 数据 结构 。 当 你 涉及 本 书 之 外 的 主题 
时 ， 可 能 会 遇 到 一 些 非常 复杂 的 编程 问题 ， 而 使 用 这 些 数据 结构 可 以 帮助 你 高 效 地 解 
决 问题 。 内 置 模块 与 函数 是 与 Python 安装 程序 捆绑 在 一 起 的 ， 所 以 当 你 安装 了 Python 
之 后 ， 立 刻 就 可 以 使 用 它们 了 。 这 一 章 讨论 的 内 置 模块 包括 collections, random, 
statistics, itertools 和 operator, A) Æ AA Eh enumerate, filter, reduce 和 zip, 
扩展 模块 没有 包括 在 Python 安装 程序 中 ， 所 以 需要 你 单独 下 载 并 安装 。 这 一 章 讨论 的 
扩展 模块 包括 NumPy, SciPy 和 Scikit-Learn; 另外 还 简单 介绍 了 栈 、 队 列 、 树 和 图 等 
其 他 数据 结构 ， 来 帮助 你 更 加 快速 和 高 效 地 存储 、 处 理 和 分 析 数 据 。 


排版 约定 
本 书 使 用 了 下 列 排版 约定 。 
。 黑体 
表示 新 术语 或 重点 强调 的 内 容 。 
。 等 宽 字 体 (constant width) 
表示 程序 片段 ， 以 及 正文 中 出 现 的 变量 、 国 数 名 、 数 据 库 、 数 据 类 型 、 环 境 变 量 、 话 名 
和 关键 字 等 。 
。 加 粗 等 宽 字体 (constant width bold) 
表示 应 该 由 用 户 输 入 的 命令 或 其 他 文本 。 
。 等 宽 斜体 (constant width italic) 
表示 应 该 由 用 户 输入 的 值 或 根据 上 下 文 确定 的 值 替 换 的 文本 。 





























图 标 表示 提示 或 建议 。 
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该 图 标 表示 一 般 注 记 。 








该 图 标 表示 警告 或 警示 。 





使 用 示例 代码 


本 书 的 所 有 补充 资料 (虚拟 机 、 数 据 、 脚 本 、 定 制 的 命令 行 工具 等 ) 都 可 以 在 这 个 地 址 下 
载 : https://github.com/cbrownley/foundations-for-analytics-with-python。 
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本 书 是 要 帮 你 完成 工作 的 。 一 般 来 说 ， 如 果 本 书 提供 了 示例 代码 ， 你 可 以 把 它 用 在 你 的 程 
序 或 文档 中 。 除 非 你 使 用 了 很 大 一 部 分 代码 ， 否 则 无 需 联 系 我 们 获得 许可 。 比 如 ， 用 本 书 
的 几 个 代码 片段 写 一 个 程序 就 无 需 获 得 许可 ， 销 售 或 分 发 OReilly 图 书 的 示例 光盘 则 需要 
获得 许可 ， 引 用 本 书 中 的 示例 代码 回答 问题 无 需 获 得 许可 ， 将 书 中 大 量 的 代码 放 到 你 的 产 
品 文档 中 则 需要 获得 许可 。 

我 们 很 希望 但 并 不 强制 要 求 你 在 引用 本 书 内 容 时 加 上 引用 说 明 。 引 用 说 明 一 般 包括 书 名 、 
作者 、 出 版 社 和 ISBN。 比 如 :“Foundations for Analytics with Python by Clinton Brownley 
(O’Reilly). Copyright 2016 Clinton Brownley, 978-1-491-92253-8.” 


如 果 你 觉得 自己 对 示例 代码 的 用 法 超出 了 上 述 许可 的 范围 ， 欢 迎 你 通过 permissions @ 
oreilly.com 与 我 们 联系 。 



































Safari? Books Online 

4 S f 。 Safari Books Online 是 应 运 而 生 的 数字 图 书馆 。 它 同时 以 图 书 和 视 
加 | 四 门 | 频 的 形式 出 版 世界 顶级 技术 和 商业 作家 的 专业 作品 ， 

技术 专家 、 软 件 开发 人 员 、Web 设计 师 、 商 务 人 士 和 创意 专家 等 ， 在 开展 调研 、 解 决 问 

题 、 学 习 和 认证 培训 时 ， 都 将 Safari Books Online 视 作 获取 资料 的 首选 渠道 。 


对 于 组 织 团 体 、 政 府 机 构 和 个 人 ，Safari Books Online 提供 各 种 产品 组 合 和 灵活 的 定 
价 策略 。 用 户 可 通过 一 个 功能 完备 的 数据 库 检 索 系 统 访问 O'Reilly Media, Prentice 
Hall Professional, Addison-Wesley Professional, Microsoft Press, Sams, Que, Peachpit 


























Press, Focal Press, Cisco Press, John Wiley & Sons, Syngress, Morgan Kaufmann, IBM 
Redbooks, Packt, Adobe Press, FT Press, Apress, Manning, New Riders, McGraw-Hill, 
Jones & Bartlett, Course Technology 以 及 其 他 几 十 家 出 版 社 的 上 千 种 图 书 、 培 训 视 频 和 正 
式 出 版 之 前 的 书稿 。 要 了 解 Safari Books Online 的 更 多 信息 ， 我 们 网 上 见 。 


联系 我 们 


请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 
美国 : 
O'Reilly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 
中 国 : 
北京 市 西城 区 西直门 南大 街 2 号 成 铭 大 厦 C HE 807 室 (100035) 
奥 莱 利 技术 咨询 (北京 ) 有 限 公司 
对 于 本 书 的 评论 和 技术 性 问题 ， 请 发 送 电 子 邮件 到 : bookquestions@oreilly.com 
要 了 解 更 多 O'Reilly 图 书 、 培 训 课 程 、 会 议和 新 闻 的 信息 ， 请 访问 以 下 网 站 : 


http://www.oreilly.com 























我 们 在 Facebook 的 地 址 如 下 : http://facebook.com/oreilly 
请 关注 我 们 的 Twitter 动态 : http://twitter.com/oreillymedia 





我 们 的 YouTube 视频 地 址 如 下 : http://www.youtube.com/oreillymedia 
本 书 作者 的 Twitter 账号 为 : @ClintonBrownley 


致谢 
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似 ， 我 要 帮助 他 们 学 习 一 些 基本 的 编程 技能 ， 让 他 们 因为 能 够 完成 数据 处 理 和 数据 分 析 项 
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电子 书 


扫描 如 下 二 维 码 ， 即 可 购买 本 书 电子 版 。 


























第 1 章 





Python 基础 


很 多 关于 Python 的 图 书 和 在 线 教程 都 展示 了 如 何在 Python shell 中 运行 代码 。 要 以 这 种 形 
式 运 行 Python 代码 ， 需 要 先 打 开 一 个 命令 行 窗 口 (Windows 系统 ) 或 终端 窗口 (macos 
系统 )， 输 入 “python”， 按 回 车 键 之 后 会 看 见 Python 提示 符 (就 是 >>>)。 然 后 ， 只 需 一 个 
一 个 地 输入 命令 ，Python 就 会 依次 执行 。 

下 面 是 两 个 典型 的 示例 : 


>>> 4+5 
9 





>>> print("I'm excited to learn Python.") 
I'm excited to learn Python. 


这 种 运行 代码 的 方法 简捷 有 趣 ， 但 是 当代 码 的 行 数 不 断 增加 时 ， 就 不 太 合适 了 。 当 你 的 任 
务 需 要 多 行 代 码 才能 完成 时 ， 一 种 更 简便 的 方式 是 将 所 有 的 代码 写 在 一 个 称 为 Python 脚本 
的 文本 文件 中 ， 然 后 运行 这 个 脚本 。 下 面 就 说 明 创建 Python 脚本 的 方法 。 


1.1 创建 Python 脚本 


要 创建 一 个 Python 脚本 ， 需 执行 下 列 步骤 。 

(D 打开 Spyder IDE 或 一 个 文本 编辑 器 (例如 : Windows 系统 可 以 使 用 Notepad, Notepad++ 
或 Sublime Text; macOS 系统 可 以 使 用 TextMate, TextWrangler 或 Sublime Text), 

(2) 将 下 面 两 行 代 码 写 在 文本 文件 中 : 


#!/usr/bin/env python3 
print("Output £1: I'm excited to learn Python.") 





























第 一 行 比较 特殊 ， 称 为 shebang 行 ， 在 Python 脚本 中 ， 你 应 该 一 直 将 它 作为 第 一 行 。 
请 注意 行 中 的 第 一 个 字符 是 井 号 〈#)。 以 # 开 头 的 行为 单行 注释 ， 所 以 安装 了 Windows 
系统 的 计算 机 不 读 取 也 不 执行 这 行 代码 。 但 是 ， 安 装 了 Unix 系统 的 计算 机 使 用 这 一 行 
来 找到 执行 文件 中 代码 的 Python 版 本 。 因 为 Windows 系统 忽略 这 一 行 ， 像 macOS 这 
样 的 基于 Unix 的 系统 使 用 这 一 行 ， 所 以 加 入 这 一 行 可 以 使 脚本 在 不 同 操作 系统 的 计算 
机 之 间 具 有 可 移植 性 。 
第 二 行 是 一 个 简单 的 打印 语句 。 这 一 行 会 将 双 引 号 之 间 的 文本 打印 在 命令 行 窗口 
(Windows) 或 终端 窗口 (macOS) E. 

(3) 打开 Save As 对 话 框 。 

(4) 在 location 栏 中 切换 到 桌面 ， 使 文件 可 以 保存 到 桌面 上 。 

(5) f£ format 栏 中 ， 选 择 All Files， 使 对 话 框 不 自动 选择 文件 类 型 。 

(6) Œ Save As xk; File Name 栏 中 ,输入 “first_script.py”。 以 前 ， 你 可 能 会 将 这 个 文本 文件 保存 
为 .txt 文件 ， 但 是 在 这 个 示例 中 ， 你 应 该 把 它 保 存 为 .py 文件 ， 来 创建 一 个 Python 脚本 。 

(7) 点 击 Save。 


这 样 ， 你 就 创建 了 一 个 Python 脚本 。 图 1-1、 图 1-2 和 图 1-3 分 别 展示 了 使 用 Anaconda 
Spyder、Notepad++ (Windows) 和 TextWrangler (macOS) 创建 脚本 的 界面 。 




























































































© Spyder (Python 27) = = - - E =e x 
Vk b EAA büc X X BE [BE A à) € > Cose etoniDocments Python Scripts vA 4 
tor - Cher Cito Document Python Sergei erp py Bx Fie opiorer 
| TA fire seriotoy E o0 
XU ERI J jt 3 | Name“ Size Type Dete Modified 
1#!/usr/bin/env python m = UIT 


2 
3print("Output #1: I'm excited to learn Python.") 
4 
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1-1; Anaconda Spyder 中 的 Python 脚本 first_script.py 











[f *CAUsers\Clinton\Desktop\first_scriptpy - Notepad++ 


File e ra coding Language Settings Macro Run Plugins Window ? 


ELLELE LEIER EGRE SSH [DH 9 I| 6 





= zd 








!/usr/bin/env python 


I 

2 

3 # Print a simple string 

4 print "Output #1: I'm excited to learn Python" 
5 








Python file. length: 94 lines:5 1n:1 Col:1 Sel:0]0 UNIX UTF-8 


INS 








1-2: Notepad++ (Windows) 中 的 Python 脚本 





» # Print a simple string 
«printf Output #1: I'm excited to leam Python.") 

















& 1-3; TextWrangler (macOS) 中 的 Python 脚本 


下 一 节 将 介绍 如 何在 命令 行 窗 口 或 终端 窗口 中 运行 Python 脚本 。 你 会 看 到 运行 
脚本 一 样 简单 。 


1.2 ”运行 Python 脚本 


脚本 和 创建 


如 果 你 使 用 Anaconda Spyder IDE 来 创建 脚本 ， 那 么 点 击 IDE 左上 角 的 绿色 三 角 (运行 按 





钮 ) 就 可 以 运行 脚本 。 
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点 击 运行 按钮 之 后 ， 你 就 会 看 到 输出 显示 在 IDE 右 下 窗 格 里 面 的 Python 控制 台中 。 屏 幕 





器 


截图 显示 了 绿色 运行 按钮 和 红 











E 中 的 输出 (参见 图 











#1: I’m excited to learn Python." , 








1-4)。 在 这 个 示例 中 ， 输 出 为 “Output 
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1#!/usr/bin/env python3 

2 

3print("Output #1: I'm excited 
4 
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B fietscriptpy 76 bytes py File 


to learn Python. ") 


Date Modified 
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Python 
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ja 2.2.0 (64-bit)| (default, Dec 18 2014, 16:57:52) [MSC v.1500 64 bit (A 





'or more information. 











Console 


[roy og [to corse T 








Permissions: mw ^ End-oflines cm — Encoding: nscrr Une: 1 











1-4; 在 Anaconda Spyder 中 运行 Python 脚本 first_script.py 


或 者 ， 你 可 以 在 命令 行 窗口 (Windows) 或 终端 窗口 (macOS) 中 运行 脚本 ， 如 下 所 示 。 


* Windows 命令 行 窗 口 
(D 打开 一 个 命令 行 窗口 。 


(2) Uc sr 


当 窗 口 打 开 后 ， 提 示 符 会 是 一 个 具体 的 文件 夹 ， 也 称 为 目录 (例如 : CAUsers 


Clinton 或 C:\Users\Clinton\Documents ) 。 














| (将 Python 脚本 保存 在 这 里 )。 





要 完成 这 个 操作 ， 输 入 以 下 命令 ， 然 后 按 回 车 键 : 


cd "C:\Users\[ Your Name]\Desktop" 


使 用 你 的 电脑 账户 名 称 ， 通 常 是 你 的 名 字 ， 来 替换 [Your Name]。 例 如 ， 在 我 的 电脑 


上 ， 应 该 输入 : 


cd "C:\Users\Clinton\Desktop" 


这 时 候 ， 提 示 符 应 该 是 这 样 的 : C:\Users\[Your Name]\Desktop。 这 就 对 了 ， 因 为 








bx 


就 是 保存 Python 脚本 的 地 方 。 最 后 一 步 就 是 运行 脚本 了 。 
(3) 运行 Python 脚本 。 
要 完成 这 个 操作 ， 输 入 以 下 命令 ， 然 后 按 回 车 键 : 


python first_script.py 











你 可 以 看 到 以 下 输出 在 命令 行 窗口 中 被 打印 出 来 ， 如 图 1-5 所 示 。 


Output #1: I'm excited to learn Python. 























Ain D 


& 1-5. 在 命令 行 窗 口 (Windows) 中 运行 Python 脚本 


v (Mac) 


(1) 打开 一 个 终端 窗口 。 


当 窗 口 打 开 后 ， 提 示 符 会 是 一 个 具体 的 文件 夹 ， 也 称 为 目录 (例如 : /Users/clinton 


或 / 














Users/clinton/Documents ) 。 








(2) 切换 到 桌面 ， 将 Python 脚本 保存 在 这 里 。 
要 完成 这 个 操作 ， 输 入 以 下 命令 ， 然 后 按 回 车 键 : 


cd /Users/[Your Name]/Desktop 


使 月 
Es 






































Bs HL IP Bk, sm UU nr. KH [your Nane]。 例 如 ， 在 我 的 电脑 
应 该 输入 : 


cd /Users/clinton/Desktop 


这 时 候 ， 提 示 符 应 该 是 这 样 的 : /Users/[Your Name]/Desktop。 这 就 对 了 ， 因 为 这 就 
是 保存 Python 脚本 的 地 方 。 下 一 步 是 为 脚本 添加 执行 权限 ， 然 后 运行 脚本 。 


(3) 为 Python 脚本 添加 执行 权限 。 
要 完成 这 个 操作 ， 输 入 以 下 命令 ， 然 后 按 回 车 键 : 


chmod «x first script.py 














chmod 是 一 个 Unix 命令 ， 表 示 改 变 访 问 权 限 (change access mode), *x 表示 在 访问 设 





置 中 


添加 执行 权限 ， 而 不 是 添加 读 权限 和 写 权 限 ， 这 样 Python 就 可 以 执行 脚本 








PAY 
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代码 了 。 你 必须 为 创建 的 每 个 Python 脚本 运行 一 次 chmod 命令 ， 以 使 脚本 可 以 执行 。 


pem 





要 你 在 一 个 文件 上 运行 了 chmod 命令 ， 以 后 就 可 以 随意 运行 这 个 脚本 ， 














chmod 命令 了 。 
(4) 运行 Python 脚本 。 
要 完成 这 个 操作 ， 输 入 以 下 命令 ， 然 后 按 回 车 键 ， 
./first_script.py 
你 可 以 看 到 以 下 输出 在 终端 窗口 中 被 打印 出 来 ， 如 图 1-6 所 示 。 


Output #1: I'm excited to learn Python. 

















不 用 再 执行 








clinton-mba:~ clinton$ cd Desktop/ 
clinton-mba:Desktop clinton$ chmod +x first_script.py 
clinton-mba:Desktop clinton$ ./first_script.py 
Output #1: I'm excited to learn Python. 
clinton-mba:Desktop clinton$ 








图 1-6: 在 终端 窗口 (macOS) 中 运行 Python 脚本 


1.3 与 命令 行进 行 交 互 的 几 项 技巧 


下 面 是 与 命令 行进 行 交 互 的 几 项 技巧 。 
。 使 用 向 上 箭头 键 得 到 以 前 的 命 





























dia 口 和 终端 窗口 的 一 个 美妙 功能 是 ， 你 可 以 通过 按 向 上 箭头 键 找到 以 前 输入 的 命 

















令 。 试 着 在 命令 行 窗 口 或 终端 窗口 中 按 一 下 向 上 箭头 键 ， 找 到 你 以 前 输入 的 命令 ， 在 


Windows 系统 中 是 python first_script.py， 在 Mac 系统 中 是 ./first script.py, 


个 功能 非常 方便 ， 可 以 减少 每 次 运行 Python 脚本 时 必需 的 输入 量 ， 特 另 
脚本 的 文件 名 特别 长 或 需要 在 命令 行 上 提供 额外 的 参数 docte bleed 





名 ) 的 时 候 。 
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是 当 Python 
文件 





用 Ctrl+c 停止 脚本 
既然 你 已 经 学 会 了 运行 脚本 ， 那 么 是 时 候 学 习 一 下 如 何 中 断 和 停止 Python 脚本 了 。 在 
相当 多 的 情况 下 ， 你 应 该 知道 如 何 停止 脚本 。 例 如 ， 你 可 能 会 写 出 死 循环 代码 ， 这 样 肢 
本 就 永远 不 会 停止 运行 。 另 外 一 种 情况 是 ， 你 编写 的 代码 可 能 需要 很 长 时 间 才 能 执行 完 
毕 ， 如 果 你 在 代码 中 包含 了 print 语句 ， 并 由 此 发 现 脚 本 不 会 生成 需要 的 输出 ， 这 时 就 
应 该 提前 终止 脚本 。 


在 脚本 开始 运行 之 后 ， 如 果 想 随时 中 断 或 停止 脚本 ， 可 以 按 Ctrbec (Windows) 或 
Control+c (macOS)。 这 会 停止 通过 命令 开始 的 进程 。 你 不 用 太 在 意 这 项 技术 的 细 市 ， 
只 要 知道 进程 是 计算 机 对 一 系列 命令 的 处 理 过 程 就 可 以 了 。 你 编写 了 一 个 脚本 或 程序 ， 
计算 机 将 它 解 释 成 一 个 进程 ， 如 果 这 个 程序 非常 复杂 ， 就 解释 成 一 系列 进程 ， 这 些 进程 
或 者 顺序 执行 ， 或 者 并 发 执行 。 

读 懂 出 错 信 息 并 找到 解决 方案 

这 部 分 的 主题 是 如 何 处 理 比较 麻烦 的 脚本 ， 也 简单 说 一 下 遇 到 以 下 问题 应 该 如 何 解决 。 
当 你 输入 了 ./python first_script.py， 或 者 试图 运行 任何 一 个 Python 脚本 的 时 候 ， 脚 
本 没有 正确 运行 ， 命 令 行 窗 口 或 终端 窗口 显示 了 出 错 信 息 。 首 先 不 要 慌张 ， 先 读 懂 出 错 
信息 。 某 些 情 况 下 ， 出 错 信息 中 明确 指出 了 代码 中 出 现 错误 的 行 ， 你 可 以 将 精力 集中 在 
这 一 行 上 来 纠正 错误 〈 你 的 文本 编辑 器 或 IDE 应 该 设置 成 显示 行 号 ， 如 果 不 自动 显示 
行 号 ， 请 在 菜单 中 找 一 下 或 在 网 上 快速 搜索 一 下 ， 措 清楚 如 何 显示 行 号 )。 重 要 的 是 要 
知道 出 错 信息 也 是 编程 的 一 部 分 ， 学 会 编码 也 包括 学 会 如 何 有 效 地 调试 程序 错误 。 

更 重要 的 是 ， 因 为 出 错 信息 是 通用 的 ， 所 以 通常 很 容易 学 会 如 何 调 试 程序 错误 。 你 很 可 
能 不 是 第 一 个 遇 到 这 种 错误 并 在 网 上 搜索 解决 方案 的 人 。 最 好 的 做 法 是 将 整个 错误 信息 
(至 少 是 信息 的 主要 部 分 ) 复制 到 搜索 引擎 (例如: Google 或 者 Bing) 上 ， 然 后 在 搜索 
结果 中 仔细 研究 其 他 人 是 如 何 调试 这 种 错误 的 。 


熟悉 Python 内 置 的 异常 对 象 也 是 非常 有 帮助 的 ， 这 样 你 就 可 以 识别 出 标准 的 出 错 信 
息 并 知道 如 何 改 正 错 误 。 你 可 以 在 Python 标准 库 页 面 (http://docs.python.org/3/library/ 
exceptions.html) 找到 Python 内 置 的 异常 ， 但 是 在 网 上 通过 出 错 信息 搜索 其 他 人 的 解决 
方案 也 是 非常 有 用 的 。 

向 first. script.py 添加 更 多 的 代码 

现在 ,为 了 更 熟练 地 编写 Python 代码 和 运行 Python 脚本 ， 试 着 对 first_script.py 进行 编 
辑 ， 添 加 更 多 的 代码 ， 然 后 重新 运行 脚本 。 在 进行 新 的 练习 时 ， 可 以 把 本 章 提供 的 代码 
段 添 加 到 脚本 中 原来 代码 的 下 方 ， 保 存 脚 本 ， 然 后 重新 运行 。 


举 个 例子 ， 将 下 面 的 两 段 代码 添加 到 原 有 的 print 语句 下 面 ， 然 后 保存 脚本 并 重新 运行 
(请 记 住 ， 如 果 你 使 用 的 是 命令 行 窗口 或 终端 窗口 ， 在 将 这 些 代 码 添 加 到 first script.py 
并 重新 保存 脚本 之 后 ， 可 以 按 向 上 箭头 键 ， 找 到 你 用 来 运行 脚本 的 命令 ， 不 需要 将 命令 
重新 输入 一 遍 ) : 

# 两 个 数值 相 加 

X = 4 

y = 5 
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z=x+y 
print("Output 42: Four plus five equals {0:d}.".format(z)) 


# 两 个 列表 相 加 


= [1, 2, 3, 4] 
b = ["first", "second", "third", "fourth"] 
c=a+b 


print( "Output #3: {0}, {1}, {2}".format(a, b, c)) 











LA 开头 的 行 是 注释 ， 用 来 解释 代码 ， 描 述 代 码 的 用 途 和 目的 。 





第 一 个 示例 展示 了 将 数值 赋 给 变量 、 变 量 相 加 和 格式 化 print 语句 的 方法 。 这 里 详细 说 明 
一 下 print 语句 中 的 语法 "{9:d}" .format(z)。 花 括号 〈{}) 是 一 个 占 位 符 ， 表 示 这 里 将 要 
um print 语句 一 个 具体 的 值 ， 这 里 就 是 变量 z 的 值 。9 指向 format) 方法 中 的 第 一 个 参 

数 ， 在 这 里 ， 只 包含 一 个 参数 z， 所 以 9 就 指向 这 个 值 ， 相 反 ， 如 果 有 多 个 参数 ，9 就 确 
名 一 个 参数 。 


冒号 6) 用 来 分 隔 传 和 的 值 和 它 的 格式 。d 表示 这 个 值 应 该 被 格式 化 为 整数 ， 没 有 小 数 部 
分 。 在 下 一 市 中 ， 你 将 会 学 习 如 何 设 定 小 数位 数 来 显示 肖 点 数 。 


第 二 个 示例 展示 了 创建 列表 、 列 表 相 加 和 将 列表 中 的 值 以 喜 号 分 隔 打印 在 屏幕 上 的 方法 。 
看 一 下 print 语句 中 的 语法 "{0}，{1}，{2}".format(a，b，c)， 它 说 明了 如 何在 print if 
句 中 包含 多 个 值 。a 被 传 给 {0}, b 被 传 给 {1}，c 被 传 给 (2). S 不 
是 数值 ， 所 以 不 设置 数值 格式 。 本 章 后 面 的 小 节 会 对 这 部 分 内 容 进 行 更 深入 的 讨论 。 









































为 什么 要 在 打印 时 使 用 .format 


Python 并 不 要 求 每 条 print 语句 都 必须 使 用 .format， 但 是 .format 确实 功能 强大 ， 可 以 
为 你 节省 很 多 输入 。 在 上 面 的 示例 中 ， 注 意 print("Output #3: (0), (1), (2)".format(a, 
b, c)) 的 最 终结 果 是 用 过 号 分 隔 的 3 个 变量 。 如 果 你 想 在 不 使 用 .format 的 情况 下 得 到 
ÉL 去 果 ， 那 么 就 应 该 这 样 写 : print("Output 43: ",a,", ",b,", ",c), 4eix € —f& 3E 

容易 出 现 输入 错误 的 代码 。 后 面 还 会 介绍 .format 的 其 他 用 法 ， 但 是 从 现在 开始 ， 你 
so 以 便 在 需要 的 时 候 加 以 使 用 。 














图 1-7 和 图 1-8 展示 了 在 Anaconda Spyder 和 Notepad++ 中 添加 新 代码 的 界面 。 
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Lg P AK BY & > CAUsers Cintonipocuments Python Scripts vi -* 
[Edtor - CAUcerd CintonlDeoktop frt crit py LIII 4 x File explorer mu 
局 | fece | g 000E 
1#!/usr/bin/env python3 Name’ Size Type Date Modified 
A S fistscrintpy — TébyespyHle 9/6/2015 93702 PM 
3# Print a simple string 
Aprint("Output #1: I'm excited to learn Python.") 
5 
6# This Line and the next Line are comment Lines 
7# Add two numbers together 
8x = 4 
9y = 5 
106z =x+y 
11print("Output #2: Four plus five equals {@:d}.".format(z)) 
12 [ORT SE] Fe oo | 
134 This Line and the next Line are comment Lines (Conso ox 
14# Add two Lists together m ton jenes] - = 2 3 
45a = [1, 2, 3, 4] Ines 27.9. Mooconde 2.2.0 (64 bit)| (default, Dec 18 2014, 16:57:52) [MSC v.1500 64 bit (A 
16b = ["first", "second", "third", "fourth"] [Eds nc pi nc for eaten 
Weo=atb [Piense check oul: hLip://continoum,io/thanks amd hitps://binstar.urg 
[>>> runtile('C:/Users/Clinton/Documents/Python Scripts/tirst script.py', wdirz'C:/Users/Clint 
18print("Output 43: (0), (1), (2)".format(a, b, c)) en 
19 ee (:/Users/CLinton/Desktop/first_script.py’, wdir="C:/Users/CLinton/Desktop") 
fee #1: I'm excited to learn Python. 
[Output Four plus five equals 9. 
(2, 2, 3, 4], ['first', "second*, 'third', 'fourth'], [1, 2, 3, 4, "first, ‘secon 
", 'fourth'] 
[console [THB Tog or eons] 
s Permissions: m  End-ofies cmt Encoding: aserr Unea — Coumr3 Memory: 33 x 
. : ` z 
图 1-7: 4 Anaconda Spyder 中 为 first_script.py 添加 新 代码 
[f *CAUsers ClintorNDesktopifirst scrip.py - Notepad++ = X 
File Edit Search View Encoding Language Settings Macro Run Plugins Window ? x 
3:3 BI & F8 Cs | £I Ie me [CR ER ES 1 E D I s 9 | RT D IL 
1 #!/usr/bin/env python3 
2 
3 # Print a simple string 
4 print("Output #1: I'm excited to learn Python") 
5 
6 # This line and the next line are comment lines 
7 # Add two numbers together 
86 x=4 
9 y=5 
10 > = x +Y 
11  print("Output #2: Four plus five equals {0:d}".format(z)) 
12 
13 # This line and the next line are comment lines 
14 # Add two lists together 
15 a= [1, 2, 3, 4] 
16. b = ["first", "second", "third", "fourth"] 
EM c= atb 
18  print("Output #3: (0), (1), {2}".format(a, b, c)) 
T9: 
Python file. length:446 lines:19 Ln:1 Col:1 Sel:010 UNIX UTF-8 INS 














图 1-8: 在 Notepad++ (Windows) 中 为 first_script.py 添加 新 代码 


如 果 你 将 前 面 的 代码 添加 到 了 first_script.py 中 ， 那 么 





看 到 屏幕 中 有 如 下 输出 (参见 图 1-9) 


Output £1: I'm excited to learn Python. 


行 脚本 之 后 ， 





当 你 保存 并 且 重 新 运 
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Output 42: Four plus five equals 9. 
Output 43: [1, 2, 3, 4], ['first', 'second', 'third', 'fourth'], 
[1, 2, 3, 4, 'first', 'second', 'third', 'fourth'] 





ES —5.x 











图 1-9: 在 命令 行 窗口 中 运行 添加 了 代码 之 后 的 first script.py 


1.4 ”Python 语言 基础 要 素 


既然 你 已 经 学 会 了 如 何 创建 和 运行 Python 脚本 ， 那 么 以 前 需要 手动 实现 的 业务 过 程 ， 现 








在 完全 可 以 通过 编写 Python 脚本 来 自动 化 和 规模 化 地 完成 。 后 面 几 章 会 详细 介绍 如 何 使 
用 Python 脚本 来 自动 化 和 规模 化 地 完成 任务 ， 但 是 在 进行 下 一 部 分 内 容 之 前 ， 还 需要 掌握 
更 多 的 Python 语言 基础 要 素 。 通 过 掌握 更 多 的 基础 要 素 ， 你 会 对 Python 有 更 深入 的 理解 ， 
在 后 面 的 章节 中 就 可 以 综合 运用 这 些 知 识 来 完成 具体 的 数据 处 理 任务 。 首 先 ， 本 节 介 绍 
Python 中 最 常用 的 数据 类 型 ， 然 后 讨论 使 用 if 语句 和 国 数 来 处 理 数 据 的 方法 。 在 此 之 后 ， 
从 实际 出 发 ， 介 绍 如 何 使 用 Python 读 写 文本 文件 和 CSV 文件 。 


1.4.1 数值 


Python 有 好 几 种 内 置 数 值 类 型 。 数 值 类 型 非常 有 用 ， 因 为 很 多 商业 应 用 需要 对 数值 进行 分 
析 和 处 理 。Python 中 最 主要 的 4 种 数值 类 型 是 整数 、 浮 点 数 、 长 整数 和 复数 。 这 里 只 介绍 
整数 和 浮 点 数 ， 因 为 它们 在 商业 应 用 中 是 最 常用 的 。 你 可 以 把 下 面 处 理 整 数 和 浮 点 数 的 示 
例 添加 到 first_script.py 中 ， 放 在 现 有 的 代码 下 面 ， 然 后 重新 运行 脚本 ， 在 屏幕 上 检查 输出 。 
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1. 整数 
下 面 直 接 看 几 个 带 有 整数 的 示例 : 
x29 


print("Output £4: {0}".format(x)) 
print("Output #5: (0)".format(3**4)) 
print("Output #6: {0}".format(int(8.3)/int(2.7))) 
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Output #4 展示 了 如 何 将 一 个 整数 (数字 9) 赋 给 变量 x， 然 后 将 变量 x 打印 出 来 。Output 
#5 说 明了 如 何 得 到 3 的 4 次 方 (等 于 81) 并 将 结果 打印 出 来 。Output #6 演示 了 将 数值 转 
换 成 整数 并 进行 除法 运算 的 方法 。 数 值 通 过 内 置 的 int 函数 转换 成 整数 ， 所 以 算式 变 成 了 
8 除 以 2， 结果 为 4.0。 
2. 浮 点 数 
和 整数 一 样 ， 浮 点 数 〈 即 带 小 数 点 的 数 ) 对 很 多 商业 应 用 来 说 也 是 非常 重要 的 。 下 面 是 
个 带 有 浮 点 数 的 示例 : 

print("Output 47: {0:.3f}".format(8.3/2.7)) 

y = 2.5*4.8 

print("Output #8: {0:.1f}".format(y)) 

r = 8/float(3) 


print( "Output #9: {0:.2f}".format(r)) 
print("Output #10: {0:.4f}".format(8.0/3)) 


Output #7 和 Output #6 非常 相似 ， 除 了 将 两 个 相 除 的 数 保留 为 浮 点 数 ， 这 样 算式 就 是 8.3 
除 以 2.7， 大 约 等 于 3.074。 这 个 示例 中 print 语 名 的 语法 ，"{0:.3f}".format(floating_ 
point_number/floating_point_number)， 说 明了 如 何 设 置 print 语句 中 的 小 数位 数 。 在 这 个 
示例 中 ，.3f 设 定 了 打印 的 输出 值 应 该 有 3 位 小 数 。 

Output #8 表示 用 2.5 乘 以 4.8， 将 结果 赋 给 变量 y， 然 后 将 结果 打印 出 来 ， 带 有 一 位 小 数 。 
这 两 个 浮 点 数 相 乘 的 结果 是 12， 所 以 打印 出 的 值 是 12.0。Output #9 和 Output #10 表示 以 
两 种 方式 计算 8 除 以 3， 结果 都 是 一 个 浮 点 数 ， 大 约 等 于 2.667。 
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type 函数 


Python 提供 一 个 名 为 type 的 函数 ， 你 可 以 对 所 有 对 象 调 用 这 个 函数 ， 来 获得 关于 
Python 如 何 处 理 这 个 对 象 的 更 多 信息 。 如 果 你 对 一 个 数值 变量 调用 这 个 函数 ， 它 会 
告诉 你 这 个 数值 是 整数 还 是 浮 点 数 ， 还 会 告诉 你 这 个 数值 是 否 能 当 作 字符 串 进 行 处 
理 。 了 甩 数 的 语法 非常 简单 : type(varible) 会 返回 Python 中 的 数据 类 型 。 此 外 ， 因 为 
Python 是 一 种 “面向 对 象 ” 的 语言 ， 所 以 你 可 以 对 Python 中 所 有 命名 对 象 调 用 type 
函数 ， 不 仅 是 变量 ， 还 有 函数 、 语 和 外 等 。 如 果 你 的 代码 出 现 了 意外 的 错误 ， 调 用 type 
子 数 可 以 帮助 你 进行 错误 诊断 。 











在 Python 中 进行 数值 处 理 时 ， 需 要 知道 的 非常 重要 的 一 点 是 ， 你 可 以 使 用 几 种 标准 库 模 块 
和 内 置 函数 与 模块 来 进行 常见 的 数学 计算 。 你 已 经 使 用 了 两 个 内 置 函数 来 处 理 数 值 ， 分 别 
是 int 和 float。 另 一 个 有 用 的 标准 模块 是 math, 

Python 标准 模块 随 着 Python 基本 程序 一 起 安装 在 你 的 计算 机 中 ,但 是 当 你 新 建 一 个 脚本 
时 ， 计 算 机 只 加 载 一 些 非常 基本 的 操作 (这 就 是 Python 启动 非常 快 的 一 个 原因 )。 要 想 
使 用 math 模块 中 的 一 些 函 数 ， 只 需 在 脚本 开头 shebang 行 的 下 方 添加 from math import 
[function name]。 例 如 ， 可 以 将 下 面 的 代码 行 添加 到 first_script.py 中 ， 在 shebang 行 下 面 : 


#!/usr/bin/env python3 
from math import exp, log, sqrt 
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如 果 在 first_script.py 中 添加 了 这 一 行 ， 你 就 有 3 个 有 用 的 数学 函数 可 以 任意 使 用 了 。 函 数 
exp, log 和 sqrt 分 别 表示 e 的 乘 方 、 自 然 对 数 和 平方 根 。 下 面 是 使 用 math 模块 中 的 函数 
进行 计算 的 几 个 示例 : 

print("Output #11: {0:.4f}".format(exp(3))) 


print( "Output #12: {0:.2f}".format(log(4))) 
print( "Output #13: {0:.1f}".format(sqrt(81))) 


这 3 种 数学 函数 的 计算 结果 是 浮 点 数 ， 分 别 约 为 20.0855, 1.39 和 9.0. 


3 
这 只 是 math 模块 中 一 点 微小 的 功能 。Python 中 还 有 很 多 有 用 的 数学 函数 和 模块 ， 用 于 商 
业 、 科 学 、 统 计 和 其 他 应 用 ， 本 书 还 会 对 此 进行 更 多 的 讨论 。 关 于 数学 模块 和 其 他 标准 模 
块 以 及 内 置 国 数 的 更 多 信 - 息 ， 可 以 参考 Python 标准 库 (https://docs.python.org/3/library/ 
index.html), 


1.4.2 FHR 
字符 串 是 Python 中 的 另 一 种 基本 数据 类 型 。 它 通常 是 指 人 类 可 以 阅读 的 文本 ， 你 可 以 这 
么 理解 。 但 更 广泛 地 说 ， 它 是 一 个 字符 序列 ， 并 且 字 符 只 有 在 组 成 这 个 序列 时 才 有 意义 。 
很 多 商业 应 用 中 都 有 字符 串 类 型 的 数据 ， 比 如 供应 商 和 客户 的 名 字 及 地 址 、 评 价 和 反馈 数 
据 、 事 件 日 志和 文档 记录 。 一 些 对 象 看 上 去 是 整数 ， 但 实际 上 是 字符 串 ， 比 如 邮政 编码 。 
邮政 编码 01111 (ABSENT SE AR E) 和 整数 1111 是 不 一 样 的 ， 你 不 能 对 邮政 编码 
做 加 减 乘除 ， 所 以 最 好 在 代码 中 将 邮政 编码 作为 字符 串 来 处 理 。 这 一 节 将 介绍 用 于 字符 串 
管理 的 一 些 模 块 、 函 数 和 操作 。 


字符 串 可 以 包含 在 单 引 号 、 双 引号 、3 个 单 引号 或 3 个 双 引 号 之 间 。 下 面 是 字符 串 的 几 个 
示例 : 


print("Output £14: {0:s}".format('I\'m enjoying learning Python.')) 











































































































print("Output #15: {0:s}".format("This is a long string. Without the backslash\ 
it would run off of the page on the right in the text editor and be very\ 
difficult to read and edit. By using the backslash you can split the long\ 
string into smaller strings on separate lines so that the whole string is easy\ 
to view in the text editor.")) 


print("Output £16: {0:s}".format('''You can use triple single quotes 
for multi-line comment strings.''')) 
print("Output #17: {0:s}".format("""You can also use triple double quotes 


for multi-line comment strings.""")) 
Output #14 和 本 章 开头 的 示例 非常 像 。 它 展示 了 一 个 包含 在 单 引号 之 间 的 简单 字符 串 。 这 
个 print 语句 的 结果 是 "I'm enjoying learning Python."。 请 记 住 ， 如 果 用 双 引 号 来 包含 
这 个 字符 串 的 话 ， 就 不 需要 在 "I'm" 的 单 引号 前 面 使 用 反 斜 村 了。 
Output #15 展示 了 如 何 使 用 反 斜 杠 将 一 个 非常 长 的 字符 串 分 段 显示 在 多 个 行 中 ， 以 使 它 易 
于 理解 和 编辑 。 尽 管 这 个 字符 串 分 布 在 脚本 的 多 个 行 中 ， 它 还 是 一 个 字符 串 ， 并 作为 一 个 
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完整 的 字符 串 被 打印 出 来 。 在 这 种 将 长 字符 串 分 成 多 行 的 方法 中 ， 要 注意 的 是 反 斜 杠 必 须 
是 每 行 的 最 后 一 个 字符 。 如 有 果 你 意外 地 按 了 一 下 空格 键 ， 反 和 斜 杠 后 面 就 会 出 现 一 个 看 不 见 
的 空格 ， 脚 本 就 会 抛 出 一 个 语法 错误 ， 不 能 正常 运行 。 因 此 ， 使 用 3 个 单 引 号 或 3 个 双 引 
号 来 创建 多 行 字符 串 更 稳 有 一些。 


Output #16 和 Output #17 展示 了 如 何 使 用 3 个 单 引号 和 3 个 双 引 号 来 创建 多 行 字符 串 。 这 
两 个 示例 的 输出 如 下 : 

Output #16: You can use triple single quotes 

for multi-line comment strings. 


Output #17: You can also use triple double quotes 
for multi-line comment strings. 


当 你 使 用 3 个 单 引 号 或 3 个 双 引 号 时 ， 不 需要 在 前 面 一 行 的 末尾 加 上 反 斜 杜 。 还 有 ， 请 注 
意 一 下 Output #15 和 Output #16 以 及 Output #17 在 打印 到 屏幕 之 后 的 区 别 。Output #15 使 
用 在 行 尾 添 加 反 斜 杠 的 方式 将 字符 串 分 成 多 行 ， 使 每 行 代码 更 短 并 且 更 易于 理解 ， 但 还 是 
作为 一 行 长 文本 打印 到 屏幕 上 。 与 之 相反 ，Output #16 和 Output #17 使 用 3 个 单 引 号 和 3 
个 双 引 号 创建 多 行 字符 串 ， 打 印 到 屏幕 上 后 也 是 分 行 的 。 


和 数值 类 型 一 样 ， 也 有 很 多 标准 模块 、 内 置 函 数 和 操作 符 可 以 用 来 管理 字符 串 。 常 用 的 操 
作 符 和 函数 包括 +、* 和 len。 下 面 就 是 儿 个 使 用 这 些 操 作 符 处 理 字符 串 的 示例 : 

string1 = "This is a " 

string2 - "short string." 

sentence = string1 + string2 

print("Output #18: {0:s}".format(sentence) ) 

print( "Output #19: {0:s} {1:s}{2:s}".format("She is", "very "*4, "beautiful.")) 

m = len(sentence) 

print("Output 420: {0:d}".format(m)) 


Output #18 展示 了 如 何 使 用 + 操作 符 来 将 两 个 字符 串 相 加 。 这 个 print 语句 的 输出 结果 是 
This is a short string, + 操作 符 将 两 个 字符 串 按照 原样 相 加 ， 所 以 如 果 你 想 在 结果 字 
符 串 中 留 出 空格 的 话 ， 就 必须 在 原 字符 串 中 加 上 空格 (例如: 在 Output 418 中， 要 在 字母 
“a” 后 面 加 空格 ) 或 者 在 原 字符 串 之 间 加 上 空格 (例如; 在 Output #19 中 ， 要 在 “very” 
后 面 加 上 空格 )。 


Output #19 展示 了 如 何 使 用 * 操作 符 将 字符 串 重 复 一 定 的 次 数 。 在 这 个 示例 中 ， 结 果 字 符 
BAe TEE “very” (就 是 very 后 面 跟着 一 个 空格 ) 的 4 个 副本 。 

Output #20 展示 了 如 何 使 用 内 置 函 数 Len 来 确定 字符 串 中 字符 的 数量 。 函 数 len 将 空格 与 
标点 符号 也 计 入 字符 串 长 度 。 所 以 ， 在 Output #20 中 ， 字 符 串 This is a short string. 
的 长 度 是 23 个 字符 。 

处 理 字 符 串 的 一 个 常用 标准 库 模 块 是 string。 在 string 模块 中 ,你 可 以 使 用 多 个 函数 来 
有 效 管理 字符 串 。 下 面 用 示例 说 明了 使 用 这 些 字 符 串 函数 的 方法 。 

1. split 
下 面 的 两 个 示例 展示 了 如 何 使 用 split 函数 来 将 一 个 字符 串 拆 分 成 一 个 子 字 符 串 列表 ， 列 
表 中 的 子 字符 串 正好 可 以 构成 原 字符 串 。( 列 表 是 Python 中 的 另 一 种 内 置 数 据 类 型 ， 本 章 
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后 面 将 会 讨论 。) split 函数 可 以 在 括号 中 使 用 两 个 附加 参数 。 第 一 个 附加 参数 表示 使 用 哪 
个 字符 进行 拆 分 。 第 二 个 附加 参数 表示 进行 拆 分 的 次 数 (例如 ;进行 两 次 拆 分 ， 可 以 得 到 
3 个 子 字符 串 ) : 

string1 = "My deliverable is due in May" 

string1_list1 = string1.split() 

string1_list2 = string1.split(" ",2) 

print( "Output #21: {0}".format(string1_list1)) 

print( "Output #22: FIRST PIECE:(0) SECOND PIECE:{1} THIRD PIECE: {2}"\ 

.format(stringi list2[0], stringi list2[1], stringi list2[2])) 

string2 = "Your,deliverable,is,due,in,June" 

string2 list = string2.split(',') 

print("Output 423: {0}".format(string2_list)) 

print("Output #24: {0} (1) {2}".format(string2_list[1], string2_list[5],\ 

string2_list[-1])) 


在 Output #21 中 ， 括 号 中 没有 附加 参数 ， 所 以 split 函数 使 用 空格 字符 (默认 值 ) 对 字符 
串 进 行 拆 分 。 因 为 这 个 字符 串 中 有 5 个 空格 ， 所 以 字符 串 被 拆 分 成 具有 6 个 子 字符 串 的 列 
表 。 新 生成 的 列表 为 ['My', 'deliverable', 'is', 'due', 'in', 'May'], 

Output 422 明确 地 在 split 函数 中 包含 了 两 个 附加 参数 。 第 一 个 附加 参数 是 ”"， 说 明 想 用 
空格 来 拆 分 字符 串 。 第 二 个 附加 参数 是 2， 说 明 只 想 使 用 前 两 个 空格 进行 拆 分 。 因 为 设 定 
了 拆 分 两 次 ， 所 以 会 生成 一 个 带 有 3 个 元 素 的 列表 。 第 二 个 附加 参数 会 在 你 解析 数据 的 时 
候 派 上 用 场 。 举 侈 来 说 ， 你 可 能 会 解析 一 个 日 志文 件 ， 文 件 中 包含 时 间 戳 、 错 误 代 码 和 由 
空格 分 隔 的 错误 信息 。 在 这 种 情况 下 ， 你 应 该 使 用 前 两 个 空格 进行 拆 分 ， 解 析出 时 间 惟 和 
错误 代码 ， 但 是 不 使 用 剩 下 的 空格 进行 拆 分 ， 以 便 完整 无 缺 地 保留 错误 信息 。 

在 Output #23 和 Output 424 中 ， 括 号 中 的 附加 参数 是 个 有 逗号。 在 这 种 情况 下 ，sptLit 函数 
在 出 现 总 号 的 位 置 拆 分 字符 串 。 结 果 列 表 为 ['Your'，'deliverable', 'is', 'due', 'in', 
' June' ], 
































2. join 
下 面 的 示例 展示 了 如 何 使 用 join 函数 将 列表 中 的 子 字符 串 组 合成 一 个 字符 串 。join 函数 
将 一 个 参数 放 在 join 前 面 ， 表 示 使 用 这 个 字符 (或 字符 串 ) 在 子 字符 串 之 间 进 行 组 合 : 


print("Output 425: {0}".format(','.join(string2_list))) 


在 这 个 示例 中 ， 附 加 参数 为 一 个 人 豆 号， 位 于 圆 括 号 中 。 所 以 join 国 数 将 子 字符 串 组 合成 一 
个 字符 串 ， 子 字符 串 之 间 为 逗号 。 因 为 列表 中 有 6 个 子 字符 串 ， 所 以 子 字符 串 被 组 合成 一 个 
字符 串 ， 子 字符 串 之 间 有 5 个 过 号。 新 生成 的 字符 串 是 Your,deliverable,is,due,in,June, 

3. strip 

下 面 两 组 示例 展示 了 如 何 使 用 strip, lstrip 和 rstrip 函数 从 字符 串 两 端 删 除 不 想 要 的 字 
符 。 这 3 个 函数 都 可 以 在 括号 中 使 用 一 个 附加 参数 来 设 定 要 从 字符 串 两 端 删 除 的 字符 (或 
FE). 

第 一 组 示例 展示 了 如 何 使 用 Vstrip, rstrip 和 strip 函数 分 别 从 字符 串 的 左 侧 、 右 侧 和 两 
侧 删 除 空格 、 制 表 符 和 换行 符 : 






























































string3 = " Remove unwanted characters from this string.\t\t \n" 
print( "Output #26: string3: {0:s}".format(string3) ) 

string3 lstrip = string3.lstrip() 

print("Output #27: lstrip: (0:s)".format(string3 lstrip)) 

string3 rstrip - string3.rstrip() 

print("Output 428: rstrip: (0:s)".format(string3 rstrip)) 

string3 strip - string3.strip() 

print("Output #29: strip: (0:sj".format(string3 strip)) 


string3 的 左 侧 含 有 几 个 空格 。 此 外 ， 右 侧 包含 制 表 符 (\t)、 几 个 空格 和 换行 符 (Nn). 
如 果 以 前 你 没有 见 过 Ne 和 \n， 那 么 现在 知道 了 这 是 计算 机 中 表示 制 表 符 和 换行 符 的 方法 。 


f£ Output 426 中 ， 你 会 看 到 句子 前 面 有 空白 字符 ， 在 句子 下 面 有 一 个 空 行 ， 因 为 有 换行 
fs 在 句子 后 面 你 看 不 到 制 表 符 和 空格 ， 但 它们 确实 在 那儿 。Output #27, Output #28 和 
Output #29 分 别 展示 了 从 字符 串 左 侧 、 右 侧 和 两 侧 删除 空格 、 制 表 符 和 换行 符 的 方法 。 
{9:s} 中 的 s 表示 传人 print 语句 的 值 应 该 格式 化 为 一 个 字符 串 。 


第 二 组 示例 展示 了 从 字符 串 两 端 删除 其 他 字符 的 方法 ， 将 这 些 字 符 作为 strip 函数 的 附加 
参数 即 可 。 





















































string4 = "SSHere's another string that has unwanted characters. ---++" 
print("Output #30: {0:s}".format(string4) ) 
string4 = "$$The unwanted characters have been removed.__---++" 


string4_strip = string4.strip('$_-+') 

print( "Output #31: {0:s}".format(string4_strip)) 
在 这 组 示例 中 ， 美 元 符号 ($). FAR C), ARR (-) 和 加 号 (+) 需要 从 字符 串 两 端 
删除 。 通 过 将 这 些 字符 作为 附加 参数 ， 可 以 通知 程序 从 字符 串 两 端 删 除 它 们 。 在 Output 
#31 中 ， 结 果 字 符 串 为 The unwanted characters have been removed., 





4. replace 
下 面 两 个 示例 展示 了 如 何 使 用 replace 函数 将 字符 串 中 的 一 个 或 一 组 字符 替换 为 男 一 个 或 
另 一 组 字符 。 这 个 国 数 在 括号 中 使 用 两 个 附加 参数 ， 第 一 个 参数 是 要 在 字符 串 中 查找 替换 
的 字符 或 一 组 字符 ， 第 二 个 参数 是 要 用 来 替换 掉 第 一 个 参数 的 字符 或 一 组 字符 : 
string5 = "Let's replace the spaces in this sentence with other characters." 
string5 replace = string5.replace(" ", "!@!") 
print("Output #32 (with !@!): (0:sj'.format(string5 replace)) 


string5 replace - string5.replace(" ", ",") 
print("Output #33 (with commas): (8: s. format(string5 replace)) 


Output #32 展示 了 如 何 使 用 replace 国 数 将 字符 串 中 的 空格 替换 为 !4!。 结 果 字 符 串 为 


Let's!@!replace!@!the!@!spaces !Q!in!Q!this!Q!sentence!Q!with!Q!other!(!characters., 


Output #33 JR; T Anfnp fs Hs SS FB ZS. SRR FEY Let's,replace,the, 


spaces,in,this,sentence,with,other,characters., 

















5. lower, upper, capitalize 
最 后 3 个 示例 展示 了 如 何 使 用 lower, upper 和 capitalize 函数 。lower 和 upper 国 数 分 别 
用 来 将 字符 串 中 的 字母 转换 为 小 写 和 大 写 。capitalLize 国 数 对 字符 串 中 的 第 一 个 字母 应 用 
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upper 图 数 ， 对 其 余 的 字母 应 用 lower 国 数 ; 


string6 = "Here's WHAT Happens WHEN You Use lower." 

print("Output #34: {0:s}".format(string6.lower())) 

string7 = "Here's what Happens when You Use UPPER." 

print("Output #35: {0:s}".format(string7.upper())) 

string5 = "here's WHAT Happens WHEN you use Capitalize." 

print( "Output #36: {0:s}".format(string5.capitalize())) 

string5 list = string5.split() 

print("Output 437 (on each word):") 

for word in string5 list: 
print("{0:s}".format(word.capitalize())) 





Output #34 和 Output #35 是 对 lower 和 upper 函数 最 直接 的 应 用 。 在 字符 串 上 应 用 了 这 些 
函数 之 后 ，string6 中 的 所 有 字母 都 是 小 写 ，string7 中 的 所 有 字母 都 是 大 写 。 


Output #36 和 Output #37 演示 了 capitalize 国 数 。Output #36 说 明了 capitalize 函数 对 
字符 串 中 的 第 一 个 字母 应 用 upper 函数 ， 对 其 余 的 字母 应 用 lower 函数 。Output #37 将 
capitalize 图 数 放 在 一 个 for 循环 中 。for 循环 是 一 个 控制 流 结构 ， 将 在 后 面 详细 讨论 ， 
现在 不 妨 先 看 一 下 。 
代码 for word in strings list 的 意义 是 这 样 的 :“ 对 于 strings list 这 个 列表 中 的 每 个 
元 素 ， 需 要 做 点 事情 。” 下 面 的 代码 print word.capitalize() 说 明了 对 于 列表 中 的 每 个 元 
素 要 做 的 事情 。 这 两 行 代码 放 在 一 起 的 意义 就 是 :“ 对 于 strings list 这 个 列表 中 的 每 个 
元 素 ， 先 应 用 capitalize 国 数 ， 然 后 再 打印 出 来 。” 代码 执行 的 结果 就 是 列表 中 的 每 个 单 
词 首 字母 大 写 ， 其 余 字 母 小 写 。 


Python 中 还 有 更 多 管理 字符 串 的 模块 和 函数 。 和 内 置 函数 math 一 样 ， 你 可 以 参考 Python 
标准 库 (https://docs.python.org/3/library/index.html) 来 获取 更 多 信息 。 


1.4.8 ”正则 表达 式 与 模式 匹配 


很 多 商业 分 析 都 依赖 模式 匹配 ， 也 称 为 正则 表达 式 (regular expression)。 举 例 来 说 ， 你 
可 能 需要 分 析 一 下 来 自 某 个 州 〈 比 如 马里 兰州 ) 的 所 有 订单 。 在 这 种 情况 下 ， 你 需要 识 
别 的 模式 就 是 Maryland 这 个 单词 。 同 样 ， 你 还 可 能 需要 分 析 一 下 来 自 某 个 供应 商 〈 比 如 
StaplesRUs) 的 商品 质量 ， 那 么 你 要 识别 的 模式 就 是 StaplesRUs。 
Python 包含 了 re 模块 ， 它 提供 了 在 文本 中 搜索 特定 模式 (也 就 是 正则 表达 式 ) 的 强大 功 
能 。 要 在 脚本 中 使 用 re 模块 提供 的 功能 ， 需 要 在 脚本 上 方 加 入 import re 这 行 代码 ， 放 在 
上 一 个 import 语句 之 后 。 现 在 first_script.py 的 上 方 应 该 是 这 样 的 : 

#!/usr/bin/env python3 

from math import exp, log, sqrt 

import re 
通过 导入 re 模块 ， 你 可 以 使 用 一 大 波 国 数 和 元 字符 来 创建 和 搜索 任意 复杂 的 模式 。 元 字 
ff (metacharacter) 是 正则 表达 式 中 具有 特殊 意义 的 字符 。 每 个 元 字符 都 有 特殊 意义 ， 它 
们 使 正则 表达 式 能 够 匹配 特定 的 字符 串 。 常 用 的 元 字符 包括 |、()、[]、.、*、+、?、^、 
$ 和 (?P<name>)。 如 果 你 在 正则 表达 式 中 见 到 这 些 字符 ， 要 知道 程序 不 是 要 搜索 这 些 字 
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符 本 身 ， 而 是 要 搜索 它们 描述 的 东西 。 你 可 以 在 Python 标准 库 中 的 “Regular Expression 
Operations” 一 节 中 获得 关于 元 字符 的 更 多 信息 (https:Wdocs.python.org/3/library/re.html) 。 


re 模块 中 还 包括 很 多 有 用 的 函数 ， 用 于 创建 和 搜索 特定 的 模式 〈 本 节 要 介绍 的 函数 包括 
re.compile, re.search, re.sub, re.ignorecase 和 re.I)。 来 看 一 下 示例 代码 : 





# 计算 字符 串 中 模式 出 现 的 次 数 








string = "The quick brown fox jumps over the lazy dog." 


string list - string.split() 
pattern = re.compile(r"The", re.I) 
count - 0 
for word in string list: 
if pattern.search(word): 
count += 1 
print("Output 438: (0:d]".format(count)) 





第 一 行将 字符 串 变 量 string WAA The quick brown fox jumps over the lazy dog., F 
一 行将 字符 串 拆 分 列表 ， 列 表 中 的 每 个 元 素 都 是 一 个 单词 。 


再 下 一 行使 用 re.compile 和 re.I 函数 以 及 用 r 表示 的 原始 字符 串 ， 创 建 一 个 名 为 pattern 
的 正则 表达 式 。re.compile 函数 将 文本 形式 的 模式 编译 成 为 编译 后 的 正则 表达 式 。 正 则 








表达 式 不 是 必须 编译 的 ， 但 是 编译 是 个 好 习惯 ， 因 为 这 样 可 以 显著 地 提高 程序 运行 速度 。 
re.I 函数 确保 模式 是 不 区 分 大 小 写 的 ， 能 同时 在 字符 串 中 匹配 “The” 和 “the”。 原 始 字 
符 串 标志 上 可 以 确保 Python 不 处 理 字符 串 中 的 转 义 字符 ， 比 如 \、\t 或 \n。 这 样 在 进行 
模式 匹配 时 ， 字 符 串 中 的 转 义 字符 和 正则 表达 式 中 的 元 字符 就 不 会 有 意外 的 冲突 。 在 上 面 



































的 例子 中 ， 字 符 串 中 没有 转 义 字符 ， 所 以 上 不 是 必需 的 ， 





但 是 在 正则 表达 式 中 使 用 原始 字 


符 串 标志 是 一 个 好 习惯 。 接 下 来 的 一 行 代码 创建 了 一 个 变量 count 来 保存 字符 串 中 模式 出 


现 的 次 数 ， 初 始 值 设 为 9。 


再 下 一 行 是 个 for 循环 语句 ， 在 列表 变量 string list 的 各 个 元 素 之 间 进 行 运 代 。 它 取出 的 


第 一 个 元 素 是 “The” 这 个 单词 ， 取 出 的 第 二 个 元 素 是 
到 取出 列表 中 所 有 的 单词 。 接 下 来 的 一 行使 用 re.search 


“quick” 这 个 单词 ， 以 此 类 推 ， 直 


国 数 将 列表 中 的 每 个 单词 与 正则 表 


达 式 进行 比较 。 如 果 这 个 单词 与 正则 表达 式 相 匹配 ， 函 数 就 返回 True， 否 则 就 返回 None 或 


False。 所 以 if 语句 的 意义 就 是 ， 如果 单 词 与 正则 表达 式 








匹配 ， 那 么 count 的 值 就 加 1。 


Boa, print 语句 打印 出 正则 表达 式 在 字符 串 中 找到 模式 “The”( 不 区 分 大 小 写 ) 的 次 数 ， 


在 本 例 中 ， 找 到 了 两 次 。 
AFIT! 





正则 表达 式 在 进行 搜索 时 的 确 功能 强大 ， 但 是 非常 难以 读 懂 〈 它 曾 被 称 为 





“只 用 来 写 的 语言 ") ， 所 以 当 你 第 一 次 设 有 看 懂 的 时 候 ， 不 用 太 在 意 ， 连 


家 都 不 一 定 能 看 懂 ! 














当 你 逐渐 熟悉 了 正则 表达 式 后 ， 使 用 它们 得 到 你 想 要 的 结果 就 简单 了 。 要 想 
愉快 地 学 习 正 则 表达 式 ， 你 可 以 参考 一 下 Google 研发 总 监 Peter Norvig 的 工 





























作 ， 他 创建 了 一 个 正则 表达 式 ， 这 个 表达 式 可 以 匹配 美国 总 统 的 名 字 ， 并 且 
可 以 筛 掉 失败 的 总 统 竞选 人 ， 网 址 为 https://www.oreilly.com/learning/regex- 





golf-with-peter-norvig。 
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再 看 另 一 个 示例 : 
# 在 字符 串 中 每 次 找到 模式 时 将 其 打印 出 来 


string = "The quick brown fox jumps over the lazy dog." 
string list - string.split() 
pattern = re.compile(r"(?P«match word»The)", re.I)«/match word» 
print("Output #39:") 
for word in string list: 
if pattern.search(word): 
print("(:s)".format(pattern.search(word).group('match word') 


第 二 个 示例 与 第 一 个 示例 的 区 别 在 于 ， 这 个 示例 是 想 在 屏幕 上 打印 出 每 个 匹配 的 字符 串 ， 
而 不 是 匹配 的 次 数 。 要 想得到 匹配 的 字符 串 ， 将 它们 打印 到 屏幕 上 或 存储 在 文件 中 ， 需 要 
使 用 (?P<name>) 元 字符 和 group 函数 。 这 个 示例 中 的 多 数 代码 和 前 一 个 示例 中 讨论 过 的 代 
码 是 一 样 的 ， 所 以 这 里 重点 解释 新 的 部 分 。 


第 一 个 新 代码 片段 是 (?P<name>)， 这 是 一 个 出 现在 re. compile 函数 中 的 元 字符 。 这 个 元 字 
符 使 匹配 的 字符 串 可 以 在 后 面 的 程序 中 通过 组 名 符号 <name> 来 引用 。 在 这 个 示例 中 ， 这 个 
组 被 称 为 <match_word>。 


最 后 一 个 新 代码 片段 出 现在 if 语句 中 。 这 个 代码 片段 的 意义 是 :“ 如 果 结 果 为 True (也 就 
是 说 ， 如 果 单 词 与 模式 匹配 )， 那 么 就 在 search 函数 返回 的 数据 结构 中 找 出 match. word 组 
中 的 值 ， 并 把 这 些 值 打印 在 屏幕 上 。 


下 面 是 最 后 一 个 示例 : 


# 使 用 字母 "a" 楚 换 字符 串 中 的 单词 “the” 

string = "The quick brown fox jumps over the lazy dog." 
string to find = r"The" 

pattern = re.compile(string to find, re.I) 

print("Output #40: {:s}".format(pattern.sub("a", string) 


最 后 一 个 示例 展示 了 如 何 使 用 re.sub 函数 来 在 文本 中 用 一 种 模式 替换 另 一 种 模式 。 再 说 一 
遍 ， 这 个 示例 中 的 多 数 代 码 和 前 两 个 示例 中 讨论 过 的 代码 是 一 样 的 ， 所 以 这 里 重点 解释 新 
的 部 分 。 

第 一 个 新 代码 片段 将 正则 表达 式 赋 给 变量 pattern， 于 是 这 个 变量 可 以 被 传 入 到 
re.compile 国 数 中 。 解 释 一 下 ， 在 调用 re.compile 国 数 之 前 ， 将 正则 表达 式 赋 给 变量 不 是 
必需 的 ; 但 是 ， 如 果 你 的 正则 表达 式 特别 长 而 且 复杂 的 话 ， 将 它 赋 给 一 个 变量 然后 将 变量 
传 给 re.compile 函数 这 种 做 法 可 以 使 你 的 代码 更 利于 理解 。 

最 后 一 个 新 代码 片段 在 最 后 一 行 。 这 个 代码 片段 使 用 re.sub 函数 以 不 区 分 大 小 写 的 方式 在 
变量 string 中 寻找 模式 ， 然 后 将 发 现 的 每 个 模式 禁 换 成 字母 3。 这 次 蔡 换 的 最 终结 果 是 a 
quick brown fox jumps over a lazy dog., 

更 多 关于 正则 表达 式 函 数 的 信息 可 以 在 Python 标准 库 (https://docs.python.org/3/library/ 
index.html) 中 找到 ， 也 可 以 参考 Michael Fitzgerald 的 著作 《学习 正则 表达 式 》'。 




















































































































TE 1: 此 书 己 由 人 民 邮 电 出 版 社 出 版 。 一 一 编者 注 












































1.4.4 日 期 


日 期 在 大 多 数 商 业 应 用 中 都 是 必 不 可 少 的 。 你 需要 知道 一 个 事件 在 何 时 发 生 ， 距 离 这 件 事 
发 生还 有 多 少时 间 ， 或 者 几 个 事件 之 间 的 时 间 间 隔 。 因 为 日 期 是 很 多 应 用 的 核心 ， 也 因为 
日 期 是 一 种 非常 不 寻常 的 数据 ， 在 处 理 时 经 常 要 乘 以 60 或 24， 也 有 “差不多 30 分 钟 ” 和 
“几乎 是 365 天 和 一 个 季度 ”这 样 的 说 法 ， 所 以 在 Python 中 对 日 期 有 特殊 的 处 理 方式 。 


Python 中 包含 了 datetime 模块 ， 它 提供 了 非常 强大 的 功能 来 处 理 日 期 和 时 间 。 要 想 在 脚 
本 中 使 用 datetime 模块 提供 的 功能 ， 需 要 在 脚本 上 方 加 入 from datetime import date, 
time，datetime，timedelta， 放 在 之 前 的 import 语句 下 面 。 现 在 first_script.py 的 上 方 应 该 
是 这 样 的 : 

#!/usr/bin/env python3 

from math import exp, log, sqrt 


import re 
from datetime import date, time, datetime, timedelta 


导入 datetine 模块 之 后 ， 就 有 各 式 各 样 的 日 期 时 间 对 象 和 函数 供 你 随意 使 用 了 。 常 用 的 对 
象 和 函数 包括 today, year, month, day, timedelta, strftime 和 strptime。 这 些 国 数 可 
以 捕获 具体 的 日 期 数据 〈 例 如 : 年 、 月、 日 )、 进 行 日 期 和 时 间 的 加 减 运算 、 创 建 特定 形 
日 期 字符 串 以 及 根据 日 期 字符 串 创建 datetime 对 象 。 下 面 是 使 用 这 些 datetine x 

国 数 的 几 个 示例 。 第 一 组 示例 演示 了 date 对 象 和 datetime 对 象 之 间 的 区 别 ; 

# 打印 出 今天 的 日 期 形式 ,以 及 年 .月 .日 

today = date.today() 

print("Output #41: today: {0!s}".format(today)) 

print("Output #42: {0!s}".format(today.year)) 

print("Output #43: {0!s}".format(today.month)) 

print("Output #44: {0!s}".format(today.day)) 

current datetime = datetime.today() 

print("Output #45: (0!sj".format(current datetime)) 


通过 使 用 date.today()， 你 可 以 创建 一 个 date 对 象 ， 其 中 包含 了 年 、 月 、 日 ， 但 不 包含 
时 间 元 素 ， 比 如 时 、 分 、 秒 。 相 反 ， 通 过 datetime.today() 创建 的 对 象 则 包含 时 间 元 素 。 
{O!s} 中 的 !s 表示 传人 到 print 语句 中 的 值 应 该 格式 化 为 字符 串 ， 尽 管 它 是 个 数值 型 数 
据 。 最 后 ， 你 可 以 使 用 year, month 和 day 来 捕获 具体 的 日 期 元 素 。 


下 一 个 示例 演示 了 如 何 使 用 timedelta 函数 来 对 date 对 象 进行 时 间 的 加 减 操作 : 


# 使 用 timedelta 计 算 一 个 新 日 期 

one_day = timedelta(days=-1) 

yesterday = today + one day 

print("Output #46: yesterday: {0!s}".format(yesterday) ) 

eight_hours = timedelta(hours=-8) 

print( "Output #47: {0!s} {1!s}".format(eight_hours.days, eight hours.seconds)) 


在 这 个 示例 中 ， 使 用 timedelta 函数 从 今天 减 去 了 1 天。 当然 ,还 可 以 在 括号 中 使 用 
days=10、hours=-8 或 者 weeks=2 来 创建 变量 ,分 别 表示 未 来 10 天 、 以 前 8 个 小 时 或 者 未 
来 2 个 星期 。 
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在 使 用 timedelta 时 需要 注意 的 一 点 是 ， 它 将 括号 中 的 时 间 差 以 天 、 秒 和 毫秒 的 形式 存 
储 ， 然 后 将 数值 规范 化 后 得 到 一 个 唯一 的 值 。 这 说 明 分 钟 、 小 时 和 星期 会 被 分 别 转换 成 60 
秒 、3600 秒 和 7 天 ， 然 后 规范 化 ， 就 是 生成 天 、 秒 和 毫秒 “ 列 ”( 类 似 于 小 学 数学 中 的 个 
fr. Ff 等 等 )。 举 例 来 说 ，hours=-8 的 输出 是 (-1 days, 57,600 seconds)， 不 是 更 简单 
HJ (-28,800 seconds)。 是 这 样 计算 的 : 86 400 fb (3600 秒 每 小 时 *24 小 时 每 天 ) -28 800 
秒 (3600 秒 每 小 时 *8 小 时 ) = 57 600 秒 。 正 如 你 所 见 ， 对 负 值 的 规范 化 年 看 上 去 很 令 人 
吃惊 ， 特 别 是 在 进行 取 整 和 舍 入 时 。 


第 三 个 示例 展示 了 如 何 从 一 个 date 对 象 中 减 去 另 一 个 。 相 减 的 结果 是 个 datetime XK, 
将 所 得 的 差 以 天 、 小 时 、 分 钟 和 秒 来 显示 。 例 如 ， 在 这 个 示例 中 结果 是 “1 day, 0:00:00”: 
# 计算 出 两 个 日 期 之 间 的 天 数 
date diff = today - yesterday 


print("Output #48: {0!s}".format(date_diff)) 
print("Output #49: {0!s}".format(str(date_diff).split()[0])) 


在 某 些 情况 下 ， 你 可 能 只 需要 结果 中 的 数值 部 分 。 举 例 来 说 ， 在 这 个 示例 中 你 只 需要 数值 
1。 从 结果 中 得 到 这 个 数值 的 一 种 方法 是 使 用 前 面 已 经 讨论 过 的 字符 串 函 数 。str 函数 可 以 
将 结果 转换 成 字符 串 ，split 函数 可 以 使 用 空白 字符 将 字符 串 拆 分 ， 并 使 每 个 子 字 符 串 成 
为 列表 的 一 个 元 素 ; [9] 表示 “取出 列表 中 的 第 一 个 元 素 ”， 在 本 例 中 就 是 数值 1。 在 1.4.5 
节 中 还 会 看 到 [0] 这 种 语法 ， 因 为 它 是 列表 索引 ， 可 以 用 来 从 列表 中 取出 特定 的 元 素 。 


第 四 组 示例 展示 了 如 何 使 用 strftime 函数 根据 一 个 date 对 象 来 创建 具有 特定 格式 的 字符 串 ; 


# 根据 一 个 日 期 对 象 创建 具 有 特定 格式 的 字符 串 
print("Output #50: {:s}".format(today.strftime('%m/%d/%Y'))) 
print( "Output #51: {:s}".format(today.strftime('%b 9d, %Y'))) 
print( "Output #52: {:s}".format(today.strftime('%Y-%m-%d'))) 
print( "Output #53: {:s}".format(today.strftime('%B 9d, %Y'))) 


在 我 写 这 一 章 的 时 候 ， 当 天 的 4 种 打印 形式 如 下 : 


01/28/2016 

Jan 28, 2016 
2016-01-28 
January 28, 2016 


这 4 个 示例 说 明了 如 何 使 用 格式 符 来 创建 不 同 格式 的 日 期 字符 串 ， 格 式 符 包 括 %Y、%B、 
%b、%m 和 %d。 你 可 以 在 Python 标准 库 (https://docs.python.org/3/library/datetime.html) 的 
"datetime— Basic date and time types” 一 市 中 找到 datetime 模块 使 用 的 其 他 格式 符 。 


# 根据 一 个 表示 日 期 的 字符 串 
# 创建 一 个 带 有 特殊 格式 的 datetime 对 象 




































































datei = today.strftime( '%m/%d/%Y ' ) 
date2 = today.strftime('%b %d, %Y') 
date3 = today.strftime('%Y-%m-%d' ) 
date4 = today.strftime('%B %d, %Y') 











# 基于 4 个 具有 不 同日 期 格式 的 字符 串 

# 创建 2 个 datetime 对 象 和 2 个 date 对 象 

print("Output #54: {!s}".format(datetime.strptime(date1, '%m/%d/%Y'))) 
print( "Output #55: {!s}".format(datetime.strptime(date2, '%b %d, %Y'))) 
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# 仅 显 示 日 期 部 分 

print("Output #56: {!s}".format(datetime.date(datetime.strptime\ 
(date3, '%Y-%m-%d')))) 

print( "Output #57: {!s}".format(datetime.date(datetime.strptime\ 
(date4, '%B %d, *Y')))) 


第 五 组 示例 展示 了 如 何 使 用 strptime 函数 根据 具有 特定 形式 的 日 期 字符 串 来 创建 datetime 




















对 象 。 在 这 个 示例 中 ，datel1、date2、date3 和 date4 是 字符 串 变量 ， 以 不 同 的 形式 表示 今 
天 。 前 两 个 print 语句 展示 了 将 前 两 个 字符 串 变 量 date1 和 date2 转换 成 datetime 对 象 的 




















式 相 匹配 。 这 两 个 print 语句 的 输出 结果 是 个 datetime 对 象 ，2014-01-28 00:00:00, 


结果 。 要 使 它们 正确 工作 ，strptime 函数 中 使 用 的 形式 需要 和 传人 国 数 的 字符 串 变 量 的 形 


有 些 时 候 ， 你 可 能 只 对 datetime 对 象 中 的 日 期 部 分 感 兴 趣 。 在 这 种 情况 下 ， 你 可 以 使 用 
TREN Be CEPA print 语句 中 ， 是 date 和 strptime) 将 日 期 字符 串 变 量 转换 为 
datetime 对 象 ， 然 后 仅 返 回 datetime 对 象 的 日 期 部 分 。 这 些 print 语句 的 结果 是 2014-01- 
28。 当 然 ， 你 不 需要 立刻 打印 出 这 个 值 。 你 可 以 将 这 个 日 期 赋 给 一 个 新 变量 ， 然 后 使 用 这 





























个 变量 进行 计算 ， 洞 悉 随 着 时 间 产 生 的 业务 数据 。 


1.4.5 ”列表 





很 多 商业 分 析 中 都 使 用 列表 。 你 会 维护 各 种 客户 列表 、 产 品 列表 、 资 产 列 表 、 销 售 量 列 
表 ， 等 等 。 但 是 Python 中 的 列表 〈 对 象 的 可 排序 集合 ) 更 加 灵活 ! 上 面 那些 列表 中 包含 的 



























































在 Python 中 操作 列表 是 极其 重要 的 。 




















都 是 相似 的 对 象 〈 例 如 : 包含 客户 姓名 的 字符 串 或 代表 销售 量 的 浮 点 数 ) ， 但 是 Python 中 
的 列表 可 不 止 这 么 简单 。 它 可 以 包含 数值 、 字 符 串 、 其 他 列表 、 元 组 和 字典 (本 章 稍 后 介 
2H) 的 任意 组 合 。 因 为 列表 在 商业 应 用 中 使 用 广泛 、 灵 活性 高 、 作 用 突出 ， 所 以 掌握 如 何 


如 你 所 愿 ，Python 提供 了 很 多 有 用 的 函数 和 操作 符 来 管理 列表 。 以 下 演示 了 最 常用 的 和 最 


有 效 的 列表 函数 和 操作 符 的 使 用 方法 。 


1. 创建 列表 


# 使 用 方 括号 创建 一 个 列表 

# 用 len() 计 算 列 表 中 元 素 的 数量 

# 用 max() 和 min() 找 出 最 大 值 和 最 小 值 

# 用 count() 计 算出 列表 中 某 个 值 出 现 的 次 数 

a list = [1, 2, 3] 

print("Output #58: {}".format(a_list)) 

print("Output #59: a list has {} elements.".format(len(a list))) 
print("Output #60: the maximum value in a list is (j.".format(max(a list))) 
print("Output #61: the minimum value in a list is (j.".format(min(a list))) 
another list - ['printer', 5, ['star', 'circle', 9]] 

print("Output #62: {}".format(another_list)) 

print("Output #63: another_list also has {} elements.".format\ 

(len(another list))) 

print("Output #64: 5 is in another list {} time.".format(another list.count(5))) 




















这 个 示例 展示 了 如 何 创 建 两 个 简单 列表 ，a_List 和 another_Litst。 将 元 素 放 在 方 括号 之 间 
就 可 以 创建 列表 。a_list 包含 数值 1、2 和 3。another_list 包含 一 个 字符 串 printer, — 























Python 基础 | 

















个 数值 5 以 及 一 个 包含 了 两 个 字符 串 和 一 个 数值 的 列表 。 

文 个 示例 还 展示 了 如 何 使 用 4 种 列表 函数 : len、min、max Fl count, len 返回 列表 中 元 素 
的 个 数 。min 和 max 分别 返回 列表 中 的 最 小 值 和 最 大 值 。count 返回 列表 中 某 个 元 素 出 现 的 
2. 索引 值 


# 使 用 索引 值 访问 列表 中 的 特定 元 素 

# [0] 古 第 1 个 元 素 ,[-1] 是 最 后 一 个 元 素 
print("Output 465: {}".format(a_list[0])) 
print("Output #66: {}".format(a_list[1])) 

print( "Output #67: {}".format(a_list[2])) 

print( "Output #68: {}".format(a_list[-1])) 
print( "Output #69: {}".format(a_list[-2])) 
print( "Output #70: {}".format(a_list[-3])) 
print( "Output #71: {}".format(another_list[2])) 
print( "Output #72: {}".format(another_list[-1])) 


这 个 示例 说 明了 如 何 使 用 索引 值 来 引用 列表 中 的 特定 元 素 。 列 表 索 引 值 从 0 开始 ， 所 以 你 
可 以 通过 在 列表 名 称 后 面 的 方 括号 中 放 入 0 来 引用 列表 中 的 第 一 个 元 素 。 示 例 中 的 第 一 个 
print 语句 print a list[0] 打印 出 a list 中 的 第 一 个 元 素 ， 即 数值 1。a_Ltist[1] 引用 的 是 
列表 中 的 第 二 个 元 素 ，a_tist[2] 引用 的 是 列表 中 的 第 三 个 元 素 ， 以 此 类 推 直到 列表 结束 。 


这 个 示例 还 说 明了 你 可 以 使 用 负 索 引 值 从 列表 尾部 引用 列表 元 素 。 列 表 尾 部 的 索引 值 从 
-1 开始， 所 以 你 可 以 通过 在 列表 名 称 后 面 的 方 括号 中 放 入 -1 来 引用 列表 中 的 最 后 一 个 元 
素 。 第 四 个 print 语句 print a list[-1] 打印 出 alist 中 的 最 后 一 个 元 素 ， 即 数值 3。a_ 
List[-2] 打印 出 列表 中 倒数 第 二 个 元 素 ，a_tist[-3] 打印 出 列表 中 倒数 第 三 个 元 素 ， 以 此 
类 推 直到 列表 开头 。 


3. 列表 切片 


# 使 用 列表 切片 访问 列表 元 素 的 一 个 子 集 

# 从 开头 开始 切片 ,可 以 省 略 第 1 个 索引 值 

# 一 直 切 片 到 末尾 ,可 以 省 略 第 2 个 索引 值 
print("Output 473: {}".format(a_list[0:2])) 
print("Output #74: {}".format(another_list[:2])) 
print( "Output #75: {}".format(a_list[1:3])) 
print( "Output #76: {}".format(another_list[1:] 


这 个 示例 展示 了 如 何 使 用 列表 切片 引用 列表 元 素 的 一 个 子 集 。 在 列表 名 称 后 面 的 方 括号 中 
放 入 由 冒号 隔 开 的 两 个 索引 ， 就 可 以 创建 一 个 列表 切片 。 列 表 切 片 引 用 的 是 列表 中 从 第 一 
个 索引 值 到 第 二 个 索引 值 的 前 一 个 元 素 。 举 例 来 说 ， 第 一 个 print 语句 print a list[0:2] 
的 意义 就 是 :“ 打 印 出 alist 中 索引 值 为 0 和 1 的 元 素 ”。 这 个 print 语句 打印 出 [1，2]， 
因为 这 是 列表 中 的 前 两 个 元 素 。 

这 个 示例 还 说 明 ， 如 果 从 列表 开头 开始 切片 ， 就 可 以 省 略 第 一 个 索引 值 ， 如 果 一 直 切 片 到 列 
表 未 尾 ， 就 可 以 省 略 第 二 个 索引 值 。 举 例 来 说 ， 最 后 一 个 print 语句 print another list[1:] 
的 意义 就 是 :“ 从 列表 中 第 二 个 元 素 开 始 ， 打 印 出 another_List 中 其 余 所 有 的 元 素 。” 这 个 
print 语句 打印 出 [5, ['star', 'circle', ，9]]， 因 为 这 是 列表 中 最 后 两 个 元 素 。 






















































































































































































4. 列表 复制 
# 使 用 [:] 复 制 一 个 列表 


a new list = a list[:] 
print("Output 477: (j".format(a new list)) 


这 个 示例 展示 了 如 何 复制 一 个 列表 。 如 果 你 需要 对 列表 进行 某 种 操作 ， 比 如 添加 或 删除 元 
素 ， 或 对 列表 进行 排序 ， 但 你 还 希望 原始 列表 保持 不 变 ， 这 时 这 个 功能 就 非常 重要 了 。 要 
复制 一 个 列表 ， 在 列表 名 称 后 面 的 方 括号 中 放 和 一 个 冒号 ， 然 后 将 其 赋 给 一 个 新 的 变量 即 
可 。 在 这 个 示例 中 ，a_new_list 是 a list 的 一 个 完美 复制 ， 所 以 你 可 以 对 a. new list ifs 
加 或 删除 元 素 ， 也 可 以 对 a new list 进行 排序 ， 而 不 会 影响 a_list, 


5. 列表 连接 
# 使 用 + 将 两 个 或 更 多 个 列表 连接 起 来 
a longer list = a list + another list 
print("Output #78: (j".format(a longer list)) 


这 个 示例 展示 了 如 何 将 两 个 或 更 多 个 列表 连接 在 一 起 。 当 你 必须 分 别 引 用 多 个 具有 相似 信 
息 的 列表 ， 但 希望 将 它们 组 合 起 来 进行 分 析 的 时 候 ， 这 个 功能 就 非常 重要 了 。 举 例 来 说 ， 
由 于 数据 存储 方式 的 原因 ， 你 可 能 需要 生成 一 个 销售 量 列表 ， 甚 中 包括 来 自 于 一 个 数据 源 
和 男 一 个 数据 源 的 销售 量 列表 。 要 将 两 个 销售 量 列表 连接 在 一 起 进行 分 析 ， 可 以 将 两 个 列 
表 名 称 用 + 操作 符 相 加 ， 然 后 赋 给 一 个 新 变量 。 在 这 个 示例 中 ，a_long_list 包含 a list 
和 another. list 中 的 所 有 元 素 ， 将 它们 连接 在 一 起 形成 一 个 更 长 的 列表 。 


6. 使 用 in 和 not in 
# 使 用 in 和 not in 来 检查 列表 中 是 否 有 特定 元 素 


a=2 in a list 
print("Output #79: {}".format(a)) 
if 2 in a_list: 
print("Output #80: 2 is in {}.".format(a_list)) 
b = 6 not in a list 
print("Output #81: {}".format(b)) 
if 6 not in a_list: 
print( "Output #82: 6 is not in {}.".format(a_list)) 


这 个 示例 展示 了 如 何 使 用 in 和 not in 来 检查 列表 中 是 否 存在 某 个 特定 元 素 。 这 些 表达 式 
的 结果 是 True 或 False， 取 决 于 表达 式 为 真 还 是 假 。 这 个 功能 在 商业 应 用 中 非常 重要 ， 因 
为 你 可 以 使 用 它 在 程序 中 添加 有 意义 的 业务 逻辑 。 举 例 来 说 ， 它 们 经 党 应 用 于 if 语句 ， 
比如 “如 果 SupplierY 在 SupplierList 中 ， 那 么 做 些 什么 事 ， 否 则 做 些 其 他 事 。 本 章 后 
面 的 内 容 中 将 会 介绍 更 多 if 语句 和 其 他 控制 流 表达 式 的 示例 。 


7. 追加 、 删 除 和 弹出 元 素 


# 使 用 append() 向 列表 未 尾 追 加 一 个 新 元 素 
# 使 用 remove() 从 列表 中 删除 一 个 特定 元 素 
# 使 用 pop() 从 列表 末尾 删除 一 个 元 素 

a list.append(4) 

a list.append(5) 

a list.append(6) 

print("Output #83: {}".format(a_list)) 
a_list.remove(5) 
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print("Output 484: {}".format(a_list)) 
a list.pop() 
a list.pop() 
print("Output #85: {}".format(a_list)) 


这 个 示例 展示 了 向 列表 中 添加 元 素 和 从 列表 中 删除 元 素 的 方法 。append 方法 将 一 个 新 元 素 
追加 到 列表 末尾 。 你 可 以 使 用 该 方法 按照 具体 业务 规则 创建 列表 。 举 例 来 说 ， 要 建立 一 个 
关于 CustomerX 的 采购 量 的 列表 ， 可 以 先 创建 一 个 名 为 Customerx 的 空 列 表 ， 然 后 在 记录 
所 有 客户 采购 量 的 主 列表 中 扫描 ， 如 果 在 主 列表 中 发 现 了 CustomerX， 就 可 以 将 这 个 采购 
量 数据 追加 到 列表 CustomerX 中 。 


remove 方法 可 以 删除 列表 中 的 任意 元 素 。 你 可 以 使 用 该 方法 删除 列表 中 的 错误 元 素 和 输入 
错误 ， 还 可 以 按照 具体 业务 规则 删除 列表 中 的 元 素 。 在 这 个 示例 中 ，remove 方法 从 a list 
中 删除 了 数值 5。 


pop 方法 删除 列表 中 的 最 后 一 个 元 素 。 和 remove 方法 相似 ， 你 可 以 使 用 pop 方法 删除 列表 
末尾 的 错误 元 素 和 输入 错误 ， 还 可 以 按照 具体 的 业务 规则 从 列表 末尾 删除 元 素 。 在 这 个 示 
例 中 ， 对 pop 方法 的 两 次 调用 从 a_list 中 分 别 删除 了 数值 6 和 数值 4。 


8. 列表 反 转 


# 使 用 reverse() 原 地 反 转 一 个 列表 会 修改 原 列表 

# 要 想 反 转 列 表 同 时 又 不 修改 原 列表 , 可 以 先 复制 列表 
a list.reverse() 

print("Output #86: {}".format(a_list)) 
a_list.reverse() 

print( "Output #87: {}".format(a_list)) 


这 个 示例 展示 了 使 用 reverse KLA in-place 方式 对 列表 进行 反 转 的 方法 ( 原 地 反 转 )。 
“in-place” 表 示 反 转 操 作 将 原 列表 修改 为 顺序 颠倒 的 新 列表 。 举 例 来 说 ， 示 例 第 一 次 调用 
reverse 函数 将 a_list 改变 为 [3，2，1]。 第 二 次 调用 reverse 函数 则 将 alist 恢复 到 初 
始 顺 序 。 要 想 使 用 列表 的 反 转 形式 而 不 修改 原 列 表 ， 可 以 先 复制 列表 ， 然 后 对 列表 副本 进 


行 reverse 操作 。 


9. 列表 排序 


# 使 用 sort() 对 列表 进行 原 地 排序 会 修改 原 列 于 
# 要 想 对 列表 进行 排序 同时 又 不 修改 原 列 表 , 可 以 先 复制 列表 
unordered list = [3, 5, 1, 7, 2, 8, 4, 9, 0, 6] 
print("Output 488: {}".format(unordered_list)) 

list copy = unordered list[:] 

list copy.sort() 

print("Output #89: {}".format(list_copy) ) 

print( "Output 490: {}".format(unordered_list)) 


这 个 示例 展示 了 使 用 sort 函数 以 in-place 方式 对 列表 进行 排序 的 方法 。 和 reverse 国 数 一 
样 ， 这 种 原 地 排序 将 原 列表 修改 为 排 好 顺序 的 新 列表 。 要 想 使 用 排 好 顺序 的 列表 而 不 修改 
原 列表 ， 可 以 先 复制 列表 ， 然 后 对 列表 副本 进行 sort 操作 。 
10. sorted 排 序 函 数 

# 使 用 sorted() 对 一 个 列表 集合 按照 列表 中 某 个 位 置 的 元 素 进行 排序 
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my lists = [[1,2,3,4], [4,3,2,1], [2,4,1,3]] 

my lists sorted by index 3 = sorted(my_lists, key-lambda index value:V 
index value[3]) 

print("Output #91: (j".format(my lists sorted by index 3)) 


这 个 示例 展示 了 如 何 使 用 sorted 函数 以 及 关键 字 函 数 ， 对 一 个 列表 集合 按照 每 个 列表 中 特 
定 索 引 位 置 的 值 进行 排序 。 关 键 字 函数 设置 用 于 列表 排序 的 关键 字 。 在 这 个 示例 中 ， 关 键 
字 是 一 个 Lambda 表示 使 用 索引 位 置 为 3 的 值 (也 就 是 列表 中 的 第 四 个 元 素 ) 对 列表 
进行 排序 。( 后 续 章 节 将 会 对 Lambda 国 数 做 更 多 讨论 。) I T 
排序 关键 字 gen sorted 国 数 之 后 ， 第 一 个 列表 [4，3，2，1] 成 为 了 第 一 个 列表 ， 第 三 
个 列表 [2，4，1，3] 成 为 了 第 二 个 列表 ， 第 一 个 列表 [1，2，3，4] 成 为 了 第 三 个 列表 。 Ta 
外 ， 你 应 该 知道 sorted 函数 的 排序 与 sort 函数 的 in-place 原 地 排序 方式 不 同 ，sort 国 数 
改变 了 原 列 表 的 元 素 顺 序 ，sorted 函数 则 返回 一 个 新 的 排 好 序 的 列表 ， 并 不 改变 原 列表 的 
元 素 顺 序 。 


下 一 个 排序 示例 使 用 operator 标准 模块 ， 这 个 模块 提供 的 功能 可 以 使 用 多 个 关键 字 对 列 
表 、 元 组 和 字典 进行 排序 。 为 了 在 脚本 中 使 用 operator 模块 中 的 itemgetter 函数 ， 在 脚 
本 上 方 添 加 from operator import itemgetter; 




















#!/usr/bin/env python3 

from math import exp, log, sqrt 

import re 

from datetime import date, time, datetime, timedelta 
from operator import itemgetter 


导入 operator 模块 中 的 itemgetter 函数 后 ， 你 可 以 使 用 每 个 列表 中 多 个 索引 位 置 的 值 对 
列表 集合 进行 排序 : 
# 使 用 itemgetter() 对 一 个 列表 集合 按照 两 个 索引 位 置 来 排序 
my lists = [[123,2,2,444], [22,6,6,444], [354,4,4,678], [236,5,5,678], \ 
[578,1,1,290], [461,1,1,290]] 
my lists sorted by index 3 and 0 - sorted(my lists, key-itemgetter(3,0)) 
print("Output #92: (j".format(my lists sorted by index 3 and 0)) 


Zí Us Ra A sorted() 国 数 和 itemgetter 国 数 按照 每 个 列表 中 多 个 索引 位 置 
NEn 行 排序 。 关 键 字 函数 设置 用 于 列表 排序 的 关键 字 。 在 这 个 示例 中 ， 关 键 
Ko (3 和 0) 的 itemgetter 函数 。 这 个 语句 的 意义 是 :“ 先 按照 索引 位 置 
3 | 进行 排序 ， 然 后 ， 在 这 个 排序 基础 上 ， 按 照 索引 位 置 0 中 的 值 对 列表 进 一 
步 排序 。 
这 种 通过 多 个 元 素 对 列表 和 其 他 数据 容器 进行 排序 的 方法 非常 重要 ， 因 为 你 经 常 需要 按照 
多 个 值 对 数据 进行 排序 。 例 如 ， 如 果 要 处 理 每 天 销售 交易 数据 ， 你 需要 先 按照 日 期 再 按照 
每 天 的 交易 量 大 小 进行 排序 。 或 者 ， 在 处 理 供应 商 数 据 时 ， 你 会 先 按 照 供 应 商 姓 名 再 按照 
每 个 供应 商 的 供 货 发 票 日 期 来 排序 。sorted 函数 和 itemgetter 国 数 可 以 实现 这 样 的 功能 。 
如 果 想 获得 列表 函数 的 更 多 信息 ， 可 以 参 萎 Python 标准 库 (https://docs.python.org/3/ 
library/index.html) 
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1.4.6 ”元 组 


元 组 除了 不 能 被 修改 之 外 ， 其 余 特点 与 列表 非常 相似 。 正 因为 元 组 不 能 被 修改 ， 所 以 没有 
元 组 修改 函数 。 你 可 能 会 感到 奇怪 ， 为 什么 要 设计 这 两 种 如 此 相似 的 数据 结构 。 这 是 因为 
元 组 具有 可 修改 的 列表 无 法 实现 的 重要 作用 ， 例 如 作为 字典 键 值 。 元 组 不 如 列表 使 用 广 
泛 ， 所 以 这 里 只 是 简略 地 介绍 一 下 。 


1. 创建 元 组 
# 使 用 圆 括号 创建 元 组 
my tuple = ('x', 'y', 'z') 
print("Output 493: {}".format(my_tuple)) 
print("Output #94: my tuple has {} elements".format(len(my tuple))) 
print("Output 495: {}".format(my_tuple[1])) 
longer tuple = my tuple + my tuple 
print("Output #96: (j".format(longer tuple)) 


这 个 示例 展示 了 创建 元 组 的 方法 。 将 元 素 放 在 括号 中 间 ， 就 可 以 创建 一 个 元 组 。 此 示例 还 
说 明 ， 前 面 讨 论 过 的 很 多 应 用 于 列表 的 函数 和 操作 符 ， 也 同样 适用 于 元 组 。 例 如 ，len ER 
数 返回 元 组 中 元 素 的 个 数 ， 元 组 索引 和 元 组 切片 可 以 引用 元 组 中 特定 的 元 素 ，+ 操作 符 可 
以 连接 多 个 元 组 。 
2. 元 组 解 包 

# 使 用 赋值 操作 符 左 侧 的 变量 对 元 组 进行 解 包 


one, two, three = my tuple 

print("Output 497: {0} {1} {2}".format(one, two, three)) 
vari = 'red' 

var2 = 'robin' 

print("Output #98: {} {}".format(var1, var2)) 
















































































# 在 变量 之 间 交 换 彼此 的 值 
vari, var2 = var2, vari 
print( "Output #99: {} {}".format(var1, var2)) 


这 个 示例 展示 了 元 组 的 一 个 很 有 意思 的 操作 一 一 解 包 。 可 以 将 元 组 中 的 元 素 解 包 成 为 变 
量 ， 在 赋值 操作 符 的 左 侧 放 上 相应 的 变量 就 可 以 了 。 在 这 个 示例 中 ， 字 符 串 x、y 和 z 被 
解 包 成 为 变量 one、two 和 three 的 值 。 这 个 功能 可 以 用 来 在 变量 之 间 交 换 变 量 值 。 在 示例 
的 最 后 一 部 分 ，var2 的 值 被 赋 给 vari, vari 的 值 被 赋 给 var2, Python 会 同时 对 元 组 的 各 
个 部 分 求 值 。 这 样 ，red robin 变 成 了 robin red, 


3. 元 组 转换 成 列表 〈 及 列表 转换 成 元 组 ) 


# 将 元 组 转换 成 列表 ,列表 转换 成 元 组 

my list = [1, 2, 3] 

my tuple = ('x', 'y', 'z') 

print("Output #100: {}".format(tuple(my_list))) 
print( "Output #101: {}".format(list(my_tuple))) 


最 后 ， 可 以 将 元 组 转换 成 列表 ， 也 可 以 将 列表 转换 成 元 组 。 这 个 功能 和 可 以 将 一 个 元 素 转 


换 成 字符 串 的 str 函数 很 相似 。 要 将 一 个 列表 转换 成 元 组 ， 将 列表 名 称 放 在 tuple() 函数 
中 即 可 。 同 样 ， 要 将 一 个 元 组 转换 成 列表 ， 将 元 组 名 称 放 在 List() 函数 中 即 可 。 




















如 果 想 获得 元 组 的 更 多 信息 ， 可 以 参 攻 Python 标准 库 (https://docs.python.org/3/library/ 
index.html), 


1.4.7 FË 


Python 中 的 字典 本 质 上 是 包含 各 种 带 有 唯一 标识 符 的 成 对 信息 的 列表 。 和 列表 一 样 ， 字 
典 也 广泛 应 用 于 各 种 商业 分 析 。 在 商业 分 析 中 ， 可 以 用 字典 表示 客户 (以 客户 编码 为 键 
值 )， 也 可 以 用 字典 表示 产品 (以 序列 号 或 产品 编号 为 键 值 )， 还 可 以 用 字典 表示 资产 、 
销售 量 等 。 
在 Python 中 ， 这 样 的 数据 结构 称 为 字典 ， 在 其 他 编程 语言 中 则 称 为 关联 数组 、 键 -~ 值 存储 
和 散 列 值 。 在 商业 分 析 中 ， 列 表 和 字典 都 是 非常 重要 的 数据 结构 ， 但 是 它们 之 间 还 存在 着 
重要 的 区 别 ， 要 想 有 效 地 使 用 字典 ， 必 须 清楚 这 些 区 别 。 


。 在 列表 中 ， 你 可 以 使 用 被 称 为 索引 或 索引 值 的 连续 整数 来 引用 某 个 列表 值 。 在 字典 中 ， 
要 引用 一 个 字典 值 ， 则 可 以 使 用 整数 、 字 符 串 或 其 他 Python 对 象 ， 这 些 统称 为 字典 键 。 
在 唯一 键 值 比 连续 整数 更 能 反映 出 变量 值 含义 的 情况 下 ,这 个 特点 使 字典 比 列表 更 实用 。 

。 在 列表 中 , 列表 值 是 隐 式 排序 的 ， 因 为 索引 是 连续 整数 。 在 字典 中 , 字典 值 则 没有 排序 ， 

因为 索引 不 仅仅 只 是 数值 。 你 可 以 为 字典 中 的 项 目 定义 排序 操作 ,但 是 字典 确实 没有 内 
置 排序 。 

。 在 列表 中 ， 为 一 个 不 存在 的 位 置 (索引 ) 赋值 是 非法 的 。 在 字典 中 ， 则 可 以 在 必要 的 时 
候 创 建新 的 位 置 (BE), 

。 因为 没有 排序 ， 所 以 当 你 进行 搜索 或 添加 新 值 时 ， 字 典 的 响应 时 间 更 快 ( 当 你 插入 一 个 
新 项 目 时 ， 计 算 机 不 需要 重新 分 配 索 引 值 )。 当 处 理 的 数据 越 来 越 多 时 ， 这 是 一 个 重要 
的 考虑 因素 。 


因为 字典 在 商业 应 用 中 使 用 广泛 、 灵 活性 高 、 作 用 突出 ， 所 以 掌握 如 何在 Python 中 使 用 字 
典 是 极其 重要 的 。 下 面 的 示例 代码 演示 了 最 常用 的 和 最 有 效 的 用 于 处 理 字典 的 函数 和 操作 
符 的 使 用 方法 。 


1. 创建 字典 


# 使 用 花 括号 创建 字典 
# 用 冒号 分 隔 键 - 值 对 
# 用 Len() 计 算出 字典 中 键 - 值 对 的 数量 

empty dict = ( } 

a dict = {'one':1, 'two':2, 'three':3} 

print("Output #102: {}".format(a_dict)) 

print("Output #103: a dict has {!s} elements". format(len(a_dict))) 
another_dict = {'x':'printer', 'y':5, 'z':['star', 'circle', 9]} 
print( "Output #104: {}".format(another_dict)) 

print("Output #105: another_dict also has {!s} elements"\ 
.format(len(another dict))) 


这 个 示例 展示 了 创建 字典 的 方法 。 要 创建 一 个 空 字典 ， 将 字典 名 称 放 在 等 号 左 侧 ， 在 等 号 
右 侧 放 上 一 对 花 括号 即 可 。 


示例 中 的 第 二 个 字典 a. dict 演示 了 向 字典 中 添加 键 和 值 的 一 种 方法 。a_dict 说 明 键 和 值 
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是 用 冒号 隔 开 的 ， 花 括号 之 间 的 键 - 值 对 则 是 用 喜 号 隔 开 的 。 字 典 键 是 用 单 引 号 或 双 引 号 

围 住 的 字符 串 ， 字 典 值 可 以 是 字符 串 、 数 值 、 列 表 、 甚 他 字典 或 其 他 Python 对 象 。 在 a_ 

deni 字典 值 是 整数 ， 但 是 在 another dict 中 ， 字 典 值 是 字符 串 、 数 值 和 列表 。 最 后 ， 
这 个 示例 说 明了 Len 函数 返回 的 是 字典 中 键 - 值 对 的 个 数 。 


2. 引用 字典 中 的 值 


# 使 用 键 来 引用 字典 中 特定 的 值 
print("Output #106: {}".format(a_dict['two'])) 
print( "Output #107: {}".format(another_dict['z'] 


要 引用 字典 中 一 个 特定 的 值 ， 需 要 使 用 字典 名 称 、 一 对 方 括号 和 一 个 特定 的 键 值 (一 个 字 
符 串 )。 在 这 个 示例 中 ，a_dict['two'] 的 结果 是 整数 2，another mc I E 


['star', 'circle', 9], 


3. 复制 
# 使 用 copy() 复 制 一 个 字典 
a new dict = a dict.copy() 
print("Output #108: (j".format(a new dict)) 


要 复制 一 个 字典 ， 先 在 字典 名 称 后 面 加 上 copy 函数 ， 然 后 将 这 个 表达 式 赋 给 一 个 新 的 字 
即 可 。 在 这 个 示例 中 ，a_new_dict 是 字典 a dict 的 一 个 副本 。 


4. 键 、 值 和 项 目 


i 使 用 keys() .vaLues() 和 items() 

# 分 别 引 用 字典 中 的 键 、 值 和 键 - 值 对 
print("Output #109: {}".format(a_dict.keys())) 
a_dict_keys = a_dict.keys() 
print( "Output #110: {}".format(a_dict_keys) ) 
print( "Output £111: {}".format(a_dict.values())) 
print( "Output #112: {}".format(a_dict.items())) 


要 引用 字典 的 键 值 ， 在 字典 名 称 后 面 加 上 keys 函数 即 可 。 这 个 表达 式 的 结 吉 果 是 包含 字典 键 
值 的 一 个 列表 。 要 引用 字典 值 ， 在 字典 名 称 后 面 加 上 values 函数 即 可 。 这 个 表达 式 的 结果 
是 包含 字典 值 的 一 个 列表 。 


要 想 同 时 引用 字典 的 键 和 值 ， 在 字典 名 称 后 面 加 上 items 函数 即 可 。 结 果 是 一 个 列表 ， 其 
中 包含 的 是 键 - 值 对 形式 的 元 组 。 例 如 ，a_dict.items() 的 结果 是 [('three', 3), ('two', 
2)，('one'，1)]。 在 14.8 节 中 会 介绍 如 何 使 用 for 循环 来 对 字典 中 的 所 有 键 和 值 进行 解 
包 和 引用 。 


5. 使 用 in、not in 和 get 


if 'y' in another dict: 
print("Output #114: y is a key in another dict: {}."\ 
.format(another dict.keys())) 
if 'c' not in another dict: 
print("Output £115: c is not a key in another dict: {}."\ 
.format(another dict.keys())) 
print("Output #116: {!s}".format(a_dict.get('three'))) 
print( "Output #117: {!s}".format(a_dict.get('four'))) 
print( "Output #118: {!s}".format(a_dict.get('four', 'Not in dict'))) 











































































































































































































这 个 示例 展示 了 测试 字典 中 是 否 存 在 某 个 键 值 的 两 种 方法 。 第 一 种 方法 是 使 用 if 语句 、in 
或 not in 以 及 字典 名 称 。 使 用 in, Vf 语句 来 测试 y 是 否 是 another. dict 中 的 一 个 键 值 。 
如 果 语 句 结果 为 真 ( 也 就 是 说 如 果 y 是 another. dict 中 的 一 个 键 值 )， 那 么 就 执行 print 语 
^s 否则 ， 就 不 执行 。 这 种 if in 和 if not in 语句 经 常用 于 测试 是 否 存在 某 个 键 值 ， 和 其 
他 语句 一 起 使 用 时 ， 还 可 以 为 字典 添加 新 的 键 值 。 本 书后 续 章 市 会 有 添加 键 值 的 示例 。 
































缩 进 的 作用 

你 应 该 注意 到 if EAS do f TAX HR EST, Python 使 用 缩 进来 表示 一 个 语句 是 否 属 于 
一 个 逻辑 上 的 “ 块 "， 也 就 是 说 ， 如 果 if Hay FH] BA True, MAF HAE HPA a 
进 的 代码 都 要 被 执行 ， 然 后 Python 解释 器 再 继续 下 一 步 工作 。 你 会 发 现 这 种 缩 进 还 会 
在 随后 讨论 的 其 他 逻辑 块 中 出 现 ， 现 在 你 需要 记 住 的 是 ， 在 Python 中 缩 进 是 有 明确 
意义 的 ， 你 必须 遵循 这 个 原则 。 如 果 你 使 用 IDE 或 者 像 Sublime Text 这 样 的 编辑 器 ， 
软件 会 帮助 你 设置 每 次 使 用 制 表 符 都 相当 于 按 了 一 定 次 数 的 空格 键 ; 如 果 你 使 用 像 
Notepad 一 样 的 普通 文本 编辑 器 ， 那 么 就 要 注意 使 用 同样 数目 的 空格 表示 同一 级 别 的 
缩 进 (一 般 使 用 4 个 空格 )。 

最 后 需要 注意 的 是 ， 有 时 候 文 本 编辑 器 会 使 用 制 表 符 代替 空格 ， 这 样 程 序 看 上 去 没有 
问题 ， 但 还 是 会 收 到 一 条 错误 信息 UR “Unexpected indent inline 37"), ， 这 就 会 令 程 序 
员 非 常 抓 狂 。 尽 管 有 这 个 问题 ,一般 来 说 ，Python 使 用 缩 进 还 是 会 使 代码 更 加 清晰 易 
读 ， 因 为 你 可 以 轻松 地 理解 程序 的 逻辑 过 程 。 














第 二 种 测试 具体 键 值 的 方式 是 使 用 get 函数 ， 这 个 函数 也 可 以 按照 键 值 取得 相应 的 字典 
值 。 和 前 一 种 测试 键 值 的 方式 不 同 ， 如 果 字 典 中 存在 这 个 键 ，get 函数 就 返回 键 值 对 应 的 
字典 值 ， 如 果 字 典 中 不 存在 这 个 键 ， 则 返回 None。 此 外 ，get 函数 还 可 以 使 用 第 二 个 参数 ， 
表示 如 果 字 典 中 不 存在 键 值 时 函数 的 返回 值 。 通 过 这 种 方式 ， 如 果 字 典 中 不 存在 该 键 值 ， 
可 以 返回 除 None 之 外 的 一 些 其 他 内 容 。 


6. 排序 


# 使 用 sorted() 对 字典 进行 排序 

# 要 想 对 字典 排序 的 同时 不 修改 原 字典 
# 先 复制 字典 
print("Output #119: {}".format(a_dict)) 

dict_copy = a_dict.copy() 

ordered dicti = sorted(dict copy.items(), key-lambda item: item[ 
print("Output #120 (order by keys): {}".format(ordered_dict1)) 

ordered dict2 - sorted(dict copy.items(), key-lambda item: item[1]) 
print("Output #121 (order by values): {}".format(ordered_dict2)) 

ordered dict3 - sorted(dict copy.items(), key-lambda x: x[1], reverse-True) 
print("Output #122 (order by values, descending): {}".format(ordered_dict3)) 
ordered dict4 - sorted(dict copy.items(), key-lambda x: x[1], reverse-False) 
print("Output #123 (order by values, ascending): {}".format(ordered_dict4)) 


这 个 示例 展示 了 如 何 使 用 不 同方 式 对 字典 进行 排序 。 本 节 开 头 就 说 过 ， 字 典 设 有 隐 含 排 
序 , 但 是 ， 你 可 以 使 用 前 面 的 代码 片段 对 一 个 字典 对 象 进行 排序 。 可 以 按照 字典 的 键 或 字 
典 值 来 排序 ， 如 果 这 些 值 是 数值 型 的 ， 排 序 方式 可 以 是 升序 ， 也 可 以 是 降序 。 
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这 个 示例 中 使 用 了 copy 函数 来 为 字典 a dict 制作 一 个 副本 ， 副 本 的 名 称 为 dict_copy。 为 
字典 制作 副本 确保 了 原 字典 a_dict 不 会 被 修改 。 下 一 行 代 码 中 包含 了 sorted 函数 、 一 个 
由 items 函数 生成 的 元 组 列表 和 一 个 作为 sorted 函数 关键 字 的 Lambda 函数 。 


这 行 代 码 比 较 复杂 ， 可 以 先 将 它 分 解 一 下 。 这 行 代码 的 目的 是 对 items 函数 生成 的 键 - 值 
元 组 列表 按照 某 种 规则 进行 排序 。 这 种 规则 就 是 key， 它 相当 于 一 个 简单 的 Lambda 函数 。 
(Lambda 函数 是 一 个 简单 函数 ， 在 运行 时 返回 一 个 表达 式 。) 在 这 个 lambda 函数 中 ，iten 
是 唯一 的 参数 ， 表 示 由 items 函数 返回 的 每 个 键 - 值 元 组 。 冒 号 后 面 是 要 返回 的 表达 式 ， 
这 个 表达 式 是 item[0] ， 即 返回 元 组 中 的 第 一 个 元 素 (也 就 是 字典 键 值 )， 用 作 sorted ER 
数 的 关键 字 。 简 而 言 之 ， 这 行 代码 的 意义 是 : 将 字典 中 的 键 - 值 对 按照 字典 键 值 升 序 排序 。 
下 一 个 sorted 函数 使 用 item[1] 而 不 是 item[0]， 所 以 这 行 代码 按照 字典 值 对 键 - 值 对 进 
行 升序 排序 。 

最 后 两 行 代码 中 的 sorted 函数 与 它们 前 面 一 行 代码 中 的 sorted 函数 很 相似 ， 因 为 这 3 个 
sorted 函数 都 使 用 字典 值 作为 排序 关键 字 。 又 因为 这 个 字典 的 值 是 数值 型 的 ， 所 以 可 以 按 
照 升序 或 降序 对 其 进行 排序 。 最 后 两 种 排序 方式 展示 了 如 何 使 用 sorted 函数 的 reverse 参 
数 来 设 定 排序 结果 是 升序 还 是 降序 。reverse=True 对 应 降序 ， 所 以 键 - 值 对 按照 字典 值 以 
降序 排序 。 


要 想 获得 更 多 关于 字典 的 信息 ， 请 参考 Python 标准 库 (https://docs.python.org/3/library/ 
index.html), 



















































































1.4.8 控制 流 


控制 流 元 素 非 常 重要 ， 因 为 可 以 在 程序 中 包含 有 意义 的 业务 逻辑 。 很 多 商务 处 理 和 分 析 依 
赖 于 业务 逻辑 ， 例 如 “如 果 客 户 的 花费 超过 一 个 具体 值 ， 那 么 就 怎样 怎样 ”或 “如 果 销 售 
额 属于 A 类 ， 则 编码 为 X， 如 果 销 售 额 属于 B 类 ， 则 编码 为 Y， 否 则 编码 为 Z。” 这 些 逻 辑 
语句 在 代码 中 可 以 用 控制 流 元 素来 表示 。 


Python 提供 了 若干 种 控制 流 元 素 ， 包 括 if-elif-else 语句 、for 循环 、range 函数 和 while 
循环 。 正 如 它们 的 名 字 所 示 ，if-else 语句 提供 的 逻辑 为 “如 果 这 样 ， 那 么 就 做 那个 ， 否 
则 做 些 别 的 事情 ”。else 代码 块 并 不 是 必需 的 ， 但 可 以 使 你 的 代码 更 加 清楚 。for 循环 可 
以 使 你 在 一 系列 值 之 间 进 行 迭 代 ， 这 些 值 可 以 是 列表 、 元 组 或 字符 串 。 你 可 以 使 用 range 
函数 与 len 函数 一 起 作用 于 列表 ， 生 成 一 个 索引 序列 ， 然 后 用 在 for 循环 中 。 最 后 ， 只 要 
while 条 件 为 真 ，while 循环 会 一 直 执行 内 部 的 代码 。 
1. if-else 
# if-elsejE4] 
X = 5 
ifx»4o0rx != 9: 

print("Output #124: {}".format(x)) 


else: 
print("Output #124: x is not greater than 4") 


第 一 个 示例 展示 了 一 个 简单 的 if-else 语句 。if 条 件 判 断 x 是否 大 于 4 或 者 x 是 否 不 等 于 
9 (l= 操作 法 表示 “不 等 于 ")。 通 过 使 用 or 操作 符 ， 在 找到 一 个 表达 式 为 True 时 就 停止 
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判断 。 在 这 个 例子 中 ，x 等 于 5，5 大 于 4， 所 以 x != 9 是 不 用 判断 的 。 第 一 个 条 件 x > 4 
为 真 ， 所 以 print x 被 执行 ， 打 印 结果 为 数值 5。 如 果 Vf 代码 块 中 没有 一 个 条 件 为 真 ， 那 
么 就 执行 else 代码 块 中 的 print 语句 。 


2. if-elif-else 


# if-elif-elsejE4] 
if x > 6: 
print("Output #125: x is greater than six") 
elif x » 4 and x -- 5: 
print("Output #125: {}".format(x*x)) 
else: 
print( "Output #125: x is not greater than 4") 


第 二 个 示例 展示 了 一 个 稍微 复杂 一 点 的 if-elif-else 语句 。 同 前 一 个 示例 一 样 ，if 代码 块 
测试 x 是 否 大 于 6。 如 果 这 个 条 件 为 真 ， 那 么 停止 判断 ， 执 行 相应 的 print 语句 。 实 际 上 ， 
5 不 大 于 6， 所 以 使 用 下 面 的 etlif 语句 继续 判断 。 这 个 语句 测试 x 是 否 大 于 4 并 且 x 是否 
等 于 5。 使 用 and 操作 符 进 行 的 判断 在 找到 一 个 表达 式 为 False 时 就 停止 。 在 这 个 例子 中 ， 
x 等 于 5，5 大 于 4， 并 且 求 的 x 值 是 5， 所 以 执行 print x*x， 打 印 结果 为 数值 25。 因 为 
这 里 已 经 使 用 了 等 号 作为 对 象 赋值 操作 符 ， 所 以 用 两 个 等 号 (==) 判断 是 否 相等 。 如 果 if 
和 eU f 代码 块 都 不 为 真 ， 那 么 就 执行 else 代码 块 中 的 print 语句 。 


3. for 循 环 
y = ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep', 'Oct', \ 
'Nov', 'Dec'] 
z = ['Annie', 'Betty', 'Claire', 'Daphne', 'Ellie', 'Franchesca', 'Greta', \ 
'Holly', 'Isabel', 'Jenny'] 



























































print("Output #126:") 
for month in y: 
print("{!s}".format(month) ) 


print( "Output #127: (index value: name in list)") 
for i in range(len(z)): 
print("(0!s): {1:s}".format(i, z[i])) 


print("Output #128: (access elements in y with z's index values)") 
for j in range(len(z)): 
if y[j].startswith('J'): 
print("{!s}".format(y[j])) 


print( "Output #129:") 


for key, value in another_dict.items(): 
print("{0:s}, {1}".format(key, value)) 


这 4 个 for 循环 示例 演示 了 如 何 使 用 for JRA EPO PER. TER BME, DX 
一 般 的 商业 应 用 中 ， 这 种 功能 都 非常 重要 。 第 一 个 for 循环 示例 展示 了 基本 语法 ， 即 for 
variable in sequence, Wi, variable 是 一 个 临时 占 位 符 ， 表 示 序 列 中 的 各 个 值 ， 并 
ARE for 循环 中 有 意义 。 在 这 个 示例 中 ， 变 量 名 为 nonth。sequence Æ REET ERA 
序列 的 名 称 。 同 样 在 这 个 示例 中 ， 序 列 名 为 y， 是 一 个 月 份 列表 。 因 此 ， 这 个 示例 的 意义 
是 :“ 对 于 y 中 的 每 个 值 ， 打 印 出 这 个 值 。 
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第 二 个 for 循环 示例 展示 了 如 何 使 用 range 函数 和 Len 函数 的 组 合生 成 一 个 可 以 在 for 08 
环 中 使 用 的 索引 值 序列 。 为 了 和 弄 清 楚 复 合 函 数 之 间 的 相互 作用 ， 可 以 仔细 地 分 析 一 下 。len 
国 数 返回 列表 z 中 元 素 的 个 数 ， 这 里 的 个 数 是 10。 然 后 range 函数 生成 了 一 系列 整数 ， 是 
从 0 开始 直到 比 Ven 函数 的 结果 少 1 的 整数 ， 在 这 个 例子 中 ， 就 是 0~9 的 整数 。 因 此 ，for 
循环 的 意义 就 是 :“ 对 于 0-9 的 整数 序列 中 的 一 个 整数 1， 打印 出 整数 1， 再 打印 一 个 空 
格 ， 然 后 打印 出 列表 z 中 索引 值 为 i 的 元 素 值 。 在 本 书 的 很 多 示例 中 ， 你 都 会 看 到 range 
国 数 和 Len 函数 的 组 合用 在 for 循环 中 ， 因 为 这 种 组 合 在 很 多 商业 应 用 中 是 非常 有 用 的 。 


第 三 个 For 循环 示例 展示 了 如 何 使 用 从 一 个 序列 中 生成 的 索引 值 来 引用 另 一 个 序列 中 具有 同 
样 索引 值 的 元 素 ， 也 说 明了 如 何在 for 循环 中 包含 if 语句 来 说 明 业 务 逻 辑 。 这 个 示例 又 一 
次 使 用 range 函数 和 Len 函数 生成 了 列表 z 的 索引 值 。 然 后 ，if 语句 测试 列表 y 中 具有 这 些 
索引 值 的 元 素 (y[O]='Jan', y[1]='Feb', =, y[9]='0ct') 是 否 以 大 写字 有 母 J 开头。 


最 后 一 个 for 循环 展示 了 在 字典 的 键 和 值 之 间 进 行 迭 代 和 引用 的 方法 。 在 for 循环 的 第 一 
fT, items 函数 返回 字典 的 键 - 值 元 组 。for 循环 中 的 key 和 value 变量 依次 捕获 这 些 值 。 
for 循环 中 的 print 语句 在 每 一 行 打印 出 一 个 键 - 值 对 ， 键 和 值 之 间 以 喜 号 隔 开 。 

4. 简化 for 循 环 : 列表 、 集 合 与 字典 生成 式 
列表 、 集 合 与 字典 生成 式 是 Python 中 一 种 简化 的 for 循环 写法 。 列 表 生 成 式 出 现在 方 括号 


内 ， 集 合生 成 式 与 字典 生成 式 则 出 现在 花 括号 内 。 所 有 的 生成 式 都 包括 条 件 逻 辑 (例如 : 
if-else 语句 )。 


列表 生成 式 。 下 面 的 示例 展示 了 如 何 使 用 列表 生成 式 来 从 一 个 列表 集合 中 筛选 出 符合 特定 
条 件 的 列表 子 集 : 

# 使 用 列表 生成 式 选择 特定 的 行 

my_data = [[1,2,3], [4,5,6], [7,8,9]] 

rows_to_keep = [row for row in my_data if row[2] > 5] 

print("Output #130 (list comprehension): {}".format(rows_to_keep)) 


在 这 个 示例 中 ， 列 表 生 成 式 的 意义 是 : 对 于 ny data 中 的 每 一 行 ， 如 果 这 行 中 索引 位 置 2 
的 值 ( 即 第 三 个 值 ) 大 于 5， 则 保留 这 一 行 。 因 为 6 和 9 都 大 于 5， 所 以 rows_to_keep 中 
的 列表 子 集 为 [4, 5, 6] fH [7, 8, 9]. 


集合 生成 式 。 下 面 的 示例 展示 了 如 何 使 用 集合 生成 式 来 从 一 个 元 组 列表 中 选择 出 特定 的 元 
组 集合 : 

























































































































































































# 使 用 集合 生成 式 在 列表 中 选择 出 一 组 唯一 的 元 组 

my_data = [(1,2,3), (4,5,6), (7,8,9), (7,8,9)] 

set of tuplesi = {x for x in my data] 

print("Output #131 (set comprehension): (j'.format(set of tuplesi1)) 
set of tuples2 - set(my data) 

print("Output #132 (set function): (j'.format(set of tuples2)) 


在 这 个 示例 中 ， 集 合生 成 式 的 意义 是 : 对 于 ny data 中 的 每 个 元 组 ， 如 果 它 是 一 个 唯一 
的 元 组 ， 则 保留 这 个 元 组 。 你 可 以 称 这 个 表达 式 为 集合 生成 式 而 不 是 列表 生成 式 ， 因 为 
表达 式 中 是 花 括 号 ， 不 是 方 括号 ， 而 且 它 也 不 是 字典 生成 式 ， 因 为 它 没 有 使 用 键 - 值 对 
这 样 的 语法 。 
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这 个 示例 中 的 第 二 个 print 语句 说 明 你 可 以 通过 Python 内 置 的 set 函数 达到 和 集合 生成 式 
同样 的 效果 。 在 这 个 例子 中 ， 使 用 内 置 的 set 函数 更 好 ， 因 为 它 比 集合 生成 式 更 精炼 ， 而 
且 更 易 读 。 


字典 生成 式 。 下 面 的 示例 展示 了 如 何 使 用 字典 生成 式 来 从 一 个 字典 中 筛选 出 满足 特定 条 件 
的 键 - 值 对 子 集 : 

# 使 用 字典 生成 式 选择 特定 的 键 - 值 对 

my dictionary = {'customer1': 7, 'customer2': 9, 'customer3': 11} 

my results = {key : value for key, value in my dictionary.items() if V 


value » 10) 
print("Output #133 (dictionary comprehension): (j".format(my results)) 


在 这 个 例子 中 ， 字 典 生 成 式 的 意义 为 : 对 于 my_dictionay 中 的 每 个 键 - 值 对 ， 如 果 值 大 
于 10， 则 保留 这 个 键 - 值 对 。 因 为 值 11 大 于 10， 所 以 保留 在 my_results 中 的 键 - 值 对 为 


{'customer3':11}, 
























































5. whi leji 

print("Output #134:") 

x=0 

while x < 11: 

print("{!s}".format(x)) 
X += 1 

这 个 示例 展示 了 如 何 使 用 while 循环 来 打印 0-10 的 整数 。x = 9 将 变量 x 初始 化 为 0。 然 
后 while 循环 判断 x 是 否 小 于 11。 因 为 x 小 于 11， 所 以 while 循环 在 一 行 中 打印 出 x 值 ， 
然后 将 x 的 值 增加 1。 接 着 while 循环 继续 判断 x (此 时 为 1) 是否 小 于 11。 因 为 确实 小 于 
11， 所 以 继续 执行 while 循环 内 部 的 语句 。 这 个 过 程 一 直 以 这 种 方式 继续 ， 直 到 x 从 10 增 
加 到 11。 这 时 ，while 循环 继续 判断 x 是 否 小 于 11， 表 达 式 结果 为 假 ，while 循环 内 部 语 
句 不 再 被 执行 。 
while 循环 适合 于 知道 内 部 语句 会 被 执行 多 少 次 的 情况 。 更 多 时 候 ， 你 不 太 确 定 内 部 语句 
需要 执行 多 少 次 ， 这 时 就 应 该 使 用 for 循环 。 
6. 函数 
在 一 些 情况 下 ， 你 会 发 现 自己 编写 国 数 比 使 用 Python 内 置 函 数 和 安装 别人 开发 的 模块 更 方 
便 有 效 。 举 例 来 说 ， 如 果 你 发 现 总 是 在 不 断 重 复 地 书写 同样 的 代码 片段 ， 那 么 就 应 该 考虑 
将 这 个 代码 片段 转换 为 函数 。 某 些 情况 下 ， 函 数 可 能 已 经 存在 于 Python 基础 模块 或 “可 导 
入 ”的 模块 中 了 。 如 果 函 数 已 经 存在 ， 就 应 该 使 用 这 些 开 发 好 并 已 经 通过 了 大 量 测 试 的 函 
数 。 但 是 ， 有 些 情 况 下 ， 你 需要 的 函数 不 存在 或 不 可 用 ， 这 时 就 需要 你 自己 创建 函数 。 


要 在 Python 中 创建 函数 ， 需 要 使 用 def 关键 字 ， 并 在 后 面 加 上 函数 名 称 和 一 对 圆 括 号 ， 然 
后 再 加 上 一 个 冒号 。 组 成 函数 主体 的 代码 需要 缩 进 。 最 后 ， 如 果 函 数 需 要 返回 一 个 或 多 个 
值 ， 可 以 使 用 return 关键 字 来 返回 函数 结果 供 程序 使 用 。 下 面 的 示例 展示 了 在 Python 中 
创建 和 使 用 函数 的 方法 : 

# 计算 一 系列 数值 的 均值 


def getMean(numericValues): 
return sum(numericValues)/len(numericValues) if len(numericValues) » 0 
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else float('nan') 


my list - [2, 2, 4, 4, 6, 6, 8, 8] 
print("Output #135 (mean): [!sj".format(getMean(my list)) 


这 个 示例 展示 了 如 何 创 建国 数 来 计算 一 系列 数值 的 均值 。 国 数 名 为 getMean。 圆 括号 之 间 
的 短语 表示 要 传人 函数 中 的 数值 序列 ， 这 是 一 个 仅 在 函数 作用 范围 内 有 意义 的 变量 。 在 函 
数 内 部 ， 由 序列 的 总 和 除 以 序列 中 数值 的 个 数 计算 出 序列 的 均值 。 此 外 ， 还 可 以 使 用 if- 
else 语句 来 检验 序列 中 是 否 包含 数值 。 如 果 确 实 包 含 数值 ， 函 数 返回 序列 均值 。 如 果 不 包 
含 数值 ， 函 数 返回 nan (BU: 非 数值 )。 如 果 省 略 了 if-etse 语句 ， 而 且 序 列 中 正好 没有 任 
何 数值 的 话 ， 程 序 就 会 抛 出 一 个 除数 为 0 的 错误 。 最后， 使 用 return 关键 字 返 回国 数 结果 
供 程序 使 用 。 


在 这 个 示例 中 ，my_List 包含 了 8 个 数值 。my_list 被 传人 getMean() 函数 中 。8 个 数值 的 
总 和 为 40，40 除 以 8 等 于 5。 所 以 ，print 语句 打印 出 整数 5。 


就 像 你 猜测 的 那样 ，mean 函数 已 经 存在 了 。 例 如 ，NumPy 中 就 有 一 个 mean 函数 。 所 以 ， 
你 可 以 通过 导入 NumPy， 使 用 它 里 面 的 mean 函数 得 到 同样 的 结果 : 
import numpy as np 
print np.mean(my list) 
再 说 一 次 ， 如 果 在 Python 基础 程序 或 可 导入 模块 中 ， 已 经 存在 你 需要 的 国 数 ， 就 应 该 使 用 
这 些 开发 好 的 并 已 经 通过 了 大 量 测试 的 函数 。 使 用 Google X Bing 来 搜索 “< 你 需要 的 功 
能 描述 > Python function” 可 以 帮助 你 找到 想 要 的 Python 函数 。 但 是 ， 如 果 你 想 完 成 业务 
过 程 中 特有 的 任务 ， 知 道 如 何 去 创 建国 数 还 是 非常 重要 的 。 
7. 异常 
编写 一 个 强壮 稳健 的 程序 的 一 个 重要 方面 就 是 有 效 地 处 理 错 误 和 异常 。 在 编写 程序 时 ， 你 
可 能 会 隐 含 地 假设 程序 要 处 理 的 数据 类 型 和 数据 结构 ， 如 果 有 数据 违反 了 你 的 假设 ， 就 会 
使 程序 抛 出 错误 。 
Python 中 包含 了 若干 种 内 置 的 异常 对 象 。 常 用 的 异常 包括 IOError、IndexError、KeyError、 
NameError、SyntaxError、TypeError、UnicodeError 和 ValueError。 你 可 以 在 网 上 获得 更 多 
的 异常 信息 ， 参 见 Python 标准 库 中 的 “Built-in Exceptions” 那 一 节 (http://docs.python.org/3/ 
library/exceptions.html) 。 你 可 以 使 用 try-except 来 构筑 处 理 错误 信息 的 第 一 道 防线 ， 即 使 
数据 不 匹配 ， 你 的 程序 还 可 以 继续 运行 。 
下 面 展 示 了 两 种 使 用 try-except 代码 块 来 有 效 地 捕获 和 处 理 异常 的 方法 (一 种 比较 短 ， 男 
一 种 比较 长 )。 这 两 个 示例 修改 了 上 一 节 的 函数 示例 ， 来 说 明 如 何 使 用 try-except 代码 块 
代替 if 语句 处 理 空 列表 的 情况 。 


8. try-except 
# 计算 一 系列 数值 的 均值 


def getMean(numericValues): 
return sum(numericValues)/len(numericValues) 
my list2 = [ ] 


# 简单 形式 
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try: 
print("Output #138: (j".format(getMean(my  list2))) 
except ZeroDivisionError as detail: 
print("Output #138 (Error): {}".format(float('nan'))) 
print("Output #138 (Error): (j'.format(detail)) 


在 这 种 处 理 异 常 的 方法 中 ， 国 数 getMean() 中 没有 检验 序列 是 否 包含 数值 的 话语 
句 。 如 果 序 列 是 空 的 ， 就 像 列 表 my list2 一 样 ， 那 么 调用 这 个 函数 会 导致 一 个 异常 


ZeroDivisionError, 


要 想 使 用 try-except 代码 块 ， 需 要 将 你 要 执行 的 代码 放 在 try 代码 块 中 ， 然 后 ， 使 用 
except 代码 块 来 处 理 六 在 的 错误 并 打印 出 错误 信息 来 帮助 你 理解 程序 错误 。 在 某 些 情况 
下 ， 异 常 具有 特定 的 值 。 你 可 以 通过 在 except 行 中 加 上 as 短语 来 引用 异常 值 ， 然 后 打印 
出 你 为 异常 指定 的 变量 。 因 为 my_list2 中 不 包含 任何 数值 ， 所 以 执行 except 代码 块 ， 打 


ENH nan FH Error: float division by zero, 















































9. try-except-else-finally 


# 完整 形式 
try: 
result = getMean(my list2) 
except ZeroDivisionError as detail: 
print "Output £142 (Error): " + str(float('nan')) 
print "Output 4142 (Error):", detail 
else: 
print "Output £142 (The mean is):", result 
finally: 
print "Output £142 (Finally): The finally block is executed every time" 


这 个 完整 形式 的 异常 处 理 方法 除了 try 和 except 代码 块 ， 还 包含 else 和 finally 代码 块 。 
如 果 try 代码 块 成 功 执行 ， 则 会 接着 执行 else 代码 块 。 因 此 ， 如 果 传 递 给 try 代码 块 中 的 
getMean() 函数 的 数值 序列 中 包含 任意 数值 ， 那 么 这 些 数值 的 均值 就 会 被 赋 给 try 代码 块 
中 的 变量 result， 然 后 接着 执行 else 代码 块 。 例 如 ， 如 果 这 里 使 用 程序 代码 +my_listl+, 
就 会 打印 出 The mean is: 5.0。 因 为 my list2 不 包含 任何 数值 ， 所 以 执行 except. 代码 块 ， 
打印 出 nan 和 Error: float division by zero。 然 后 ， 总 是 执行 finally 模块 ， 打 印 出 
The finally block is executed every time, 


1.5 读 取 文本 文件 


数据 几乎 无 一 例外 地 是 被 保存 在 文件 中 的 。 这 些 文件 可 能 是 文本 文件 、CSYV 文件 、Excel 
文件 或 其 他 类 型 的 文件 。 知 道 如 何 访问 此 类 文件 以 及 从 中 读 取 数 据 是 在 Python 中 进行 数据 
处 理 、 加 工 与 分 析 的 前 提 。 当 完成 了 一 个 每 秒 钟 可 以 处 理 很 多 文件 的 程序 时 ， 与 手动 一 个 
个 地 处 理 文件 相 比 ， 你 会 真正 体会 到 写 程序 的 好 处 。 


你 需要 告诉 Python， 脚 本 要 处 理 何 种 类 型 的 文件 。 你 可 以 在 程序 中 写 死 文件 名 称 ,但 是 
如 果 这 样 的 话 ， 就 不 能 使 用 这 个 程序 处 理 多 个 不 同 的 文件 了 。 能 读 取 多 个 不 同文 件 的 方法 
是 ， 在 命令 行 窗口 或 终端 窗口 的 命令 行 中 ， 在 Python 脚本 的 名 字 后 面 加 上 完整 的 文件 路 
径 名 。 要 使 用 这 种 方法 ， 需 要 在 脚本 开始 时 导入 内 置 的 sys 模块 。 在 脚本 上 方 加 上 import 
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sys 语句 之 后 ， 就 可 以 在 脚本 中 使 用 sys 模块 提供 的 所 有 功能 


it! /usr/bin/env python3 

from math import exp, log, sqrt 

import re 

from datetime import date, time, datetime, timedelta 
from operator import itemgetter 

import sys 


导入 了 sys 模块 之 后 ， 你 就 可 以 使 用 argv 这 个 列表 变量 了 。 这 个 变量 捕获 了 传递 给 Python 
脚本 的 命令 行 参 数列 表 ， 即 你 在 命令 行 中 的 所 有 输入 ， 包 括 你 的 脚本 名 称 。 和 任何 其 他 列 
表 一 样 ，argv 也 有 索引 。argv[9] 就 是 脚本 名 称 ，argv[1] 是 命令 行 中 传递 给 脚本 的 第 一 个 
附加 参数 ， 在 这 个 例子 中 ， 就 是 first script.py 将 要 读 取 的 文件 路 径 名 。 


1.5.1 创建 文本 文件 
要 读 取 一 个 文本 文件 ， 首 先 要 创建 它 。 要 创建 文本 文件 ， 需 执行 以 下 步 又 。 


(1) H FF Spyder IDE 或 一 个 文本 编辑 器 (例如 : Windows 系统 下 的 Notepad, Notepad++, 
Sublime Text; macOS 系统 下 的 TextMate, TextWrangler, Sublime Text), 
(2) 在 文本 文件 中 写 和 下面 6 行 (参见 图 1-10) : 
I'm 
already 
much 




















much 


Python, 














1-10; Notepad++ 中 的 文本 文件 fle_to_read.txt (Windows) 


(3) 将 文件 保存 在 桌面 上 ， 文件 名 为 file_to_read .txt。 
(4 将 下 面 儿 行 代码 添加 到 first_script.py 的 下 方 : 


# 读 取 文 件 
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# 读 取 单个 文本 文件 
input file = sys.argv[1] 





print "Output #143: " 
filereader = open(input file, 'r') 
for row in filereader: 

print row.strip() 
filereader.close() 


示例 中 的 第 一 行 代码 使 用 sys .argv 列表 捕 多 了 要 读 取 的 文件 的 路 径 名 ， 并 将 路 径 名 赋 
给 变量 input_file。 第 二 行 代码 创建 了 一 个 文件 对 象 filereader， 其 中 包含 了 以 r 模 
A (只 读 模 式 ) 打开 的 input_file 文件 中 的 各 个 行 。 下 一 行 中 的 for 循环 每 次 读 取 
filereader 对 象 中 的 一 行 。for 循环 内 部 的 print 语句 打印 出 每 一 行 ， 并 且 在 打印 之 前 
用 strip 国 数 去 掉 每 一 行 两 端的 空格 、 制 表 符 和 换行 符 。 最 后 一 行 代码 在 输入 文件 中 的 
所 有 行 都 被 读 取 并 打印 到 屏幕 后 ， 关 闭 filereader 对 象 。 

(5) 重新 保存 first _script.py. 

(6) 要 读 取 刚 才 创 建 的 文本 文件 ， 输 入 下 面 的 命令 ， 如 图 1-11 所 示 ， 然 后 按 回 车 键 : 


python first script.py file to read.txt 














































































































B Command Prompt 
Microsoft Windows [Version 6.1.7601] 
Copyright (c) 2009 Microsoft Corporation. All rights reserved. 


C:NUsersNClinton»cd Desktop 


ic: \Users\Clinton\Desktop>python first script.py file_to_read.txt 














E] 1-11: Python 脚本 和 它 要 在 命令 行 窗口 中 处 理 的 文本 文件 




















这 样 ， 你 就 在 Python 中 读 取 了 一 个 文本 文件 。 你 会 看 到 下 面 的 内 容 被 打印 到 屏幕 上 ， 在 以 
前 的 输出 之 后 (图 1-12) : 


I'm 
already 
much 
better 
at 
Python . 
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"circle', 9] 


; [7, 8, 9]] 
, 6), (7, 8, 
(7, 8, 


38: 1} 
770012 34.56 7.8 9 10 
40: 5.0 
(Error): nan 
(Error): float division by zero 
2 (Error): nan 
(Error): float division by zero 
(Finally): The finally block is executed every time 
#143: 





Ic: \Users\Clinton\Desktop> 








1-12: first_script.py 的 输出 ， 在 命令 行 窗口 中 处 理 文 本 文件 


1.5.2 脚本 和 输入 文件 在 同一 位 置 


为 first. script.py 和 file_to_read.txt 在 同一 位 置 ， 即 都 在 桌面 上 ， 所 以 简单 地 输入 python 
first_script.py file_to_read.txt 是 可 以 的 。 如 果 文 本 文件 和 脚本 不 在 同一 位 置 ， 就 需 

















要 输入 文本 文件 的 完整 路 径 名 ， 这 样 脚本 才能 知道 去 哪里 寻找 这 个 文件 。 








z 








例如 ， 如 果 文 本 文件 在 你 的 Documents 文件 夹 中 ， 而 不 是 在 桌面 上 上， 那么 你 可 以 在 命令 行 








中 使 用 下 面 的 路 径 名 来 从 其 所 处 位 置 读 取 文 本 文件 : 


python first script.py "C:\Users\[Your Name]\Documents\file_to_read.txt" 


1.5.8 读 取 文 件 的 新 型 语法 











前 面 讲 的 用 来 创建 Filereader 对 象 的 那 行 代 码 是 创建 文件 对 象 的 传统 方法 。 这 种 方法 没有 
什么 问题 ,但 是 它 使 文件 对 象 一 直 处 于 打开 状态 ， 直 到 使 用 close 函数 明确 地 关闭 或 直到 
脚本 结束 。 尽 管 这 种 做 法 一 般 没 有 问题 ， 但 不 够 清晰 ， 还 被 证 明 在 更 复杂 的 脚本 中 会 导致 
EIR, M Python 2.5 开始 ， 你 可 以 使 用 with 语句 来 创建 文件 对 象 。 这 种 语法 在 with 语句 












































结束 时 会 自动 关闭 文件 : 


input file = sys.argv[1] 

print("Output #144:") 

with open(input file, 'r', newline='') as filereader: 

for row in filereader: 
print("{}".format(row.strip())) 





你 可 以 看 到 ， 使 用 with 语 名 的 版 本 与 前 一 个 版 本 非常 相似 ， 但 是 它 不 需 调 用 close 函数 来 


关闭 filereader 对 象 。 
这 个 示例 演示 了 如 何 使 用 sys argv 来 访问 并 打印 一 个 文本 文件 中 的 内 容 。 这 是 一 个 简 六 


的 





























示例 ， 但 在 后 面 的 示例 中 ， 要 以 此 为 基础 访问 其 他 类 型 的 文件 ， 或 一 次 访问 多 个 文件 ， 
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向 输出 文件 中 写 入 内 容 。 


下 一 节 介 绍 glob 模块 ， 它 让 你 能 够 通过 儿 行 代码 读 取 和 处 理 多 个 输入 文件 。glob 模块 之 
所 以 功能 强大 ， 是 因为 它 处 理 的 是 文件 夹 (也 就 是 说 ， 它 处 理 目录 ， 不 是 单个 的 文件 )， 
所 以 将 前 面 读 取 文件 的 代码 删除 或 注释 掉 ， 这 样 就 可 以 使 argv[1] 指向 一 个 文件 夹 ， 而 不 
是 一 个 文件 了 。 将 代码 注释 掉 就 是 在 你 希望 计算 机 名 略 掉 的 代码 前 面 加 上 一 个 井 号 ， 所 以 
当 你 结束 注释 时 ，first_script.py 文件 就 应 该 像 下 面 这 样 : 

Ht 读 取 一 个 文本 文件 ( 旧 方 法 ) tH 

#input_file = sys.argv[1] 

#print("Output #143:") 

#filereader = open(input_file, 'r', newline='') 

#for row in filereader: 


X print("{}".format(row. strip())) 

#filereader.close() 

Hb 读 取 一 个 文本 文件 (新 方法 ) fü 

#input_file = sys.argv[1] 

#print("Output #144:") 

#with open(input file, 'r', newline='') as filereader: 
# for row in filereader: 

X print("()".format(row.strip())) 


做 完 这 些 修改 之 后 ， 你 就 可 以 添加 下 一 市 要 讨论 的 glob 代码 来 处 理 多 个 文件 了 。 


1.6 ”使 用 glob 读 取 多 个 文本 文件 


在 很 多 商业 应 用 中 ， 需 要 对 多 个 文件 进行 同样 的 或 相似 的 处 理 。 例 如 ， 你 可 能 会 从 多 个 文 
件 中 选择 数据 子 集 ， 根 据 多 个 文件 计算 像 总 计 和 均值 这 样 的 统计 量 ， 或 根据 来 自 于 多 个 文 
件 的 数据 子 集 计 算 统计 量 。 当 文件 数量 增加 时 ， 手 动 处 理 文件 的 可 能 性 会 减 小 ， 出 错 的 概 


率 会 增加 。 


读 取 多 个 文件 的 一 种 方法 是 在 命令 行 中 将 包含 输入 文件 目录 的 路 径 名 写 在 Python 脚本 名 称 之 
后 。 要 使 用 这 种 方法 ， 你 需要 在 脚本 开头 导入 内 置 的 os 模块 和 glob 模块 。 在 脚本 上 方 添 加 
了 import os 和 import glob 语句 之 后 ， 你 就 可 以 使 用 os 模块 和 glob 模块 提供 的 所 有 功能 

#!/usr/bin/env python3 

from math import exp, log, sqrt 

import re 

from datetime import date, time, datetime, timedelta 

from operator import itemgetter 

import Sys 

import glob 

import os 


当 导入 了 os 模块 之 后 ， 你 就 可 以 使 用 它 提供 的 若干 种 路 径 名 函数 了 。 例 如 ，os.path.join 
函数 可 以 巧妙 地 将 一 个 或 多 个 路 径 成 分 连接 在 一 起 。glob 模块 可 以 找 出 与 特定 模式 相 匹配 
的 所 有 路 径 名 。os 模块 和 glob 模块 组 合 在 一 起 使 用 ， 可 以 找 出 符合 特定 模式 的 某 个 文件 
夹 下 面 的 所 有 文件 。 

要 读 取 多 个 文件 ， 需 要 再 创建 一 个 文本 文件 。 
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创建 另 一 个 文本 文件 


(1) H FF Spyder IDE 或 一 个 文本 编辑 器 (例如 : Windows 系统 下 的 Notepad, Notepad++, 
Sublime Text; macOS 系统 下 的 TextMate, TextWrangler, Sublime Text) 。 
(2) 在 文本 文件 中 写 入 下 面 8 行 (参见 图 1-13) : 
This 
text 


comes 
from 








a 
different 
text 
file. 








This 
text 
comes 
from 

a 
different 
text 
file. 











1-13; Notepad++ 中 的 文本 文件 another_file_to_read.txt 
(3) 将 文件 保存 在 桌面 上 ， 文 件 名 为 another_file_to_read.txt, 
(4) 将 下 面 几 行 代码 添加 到 first. script.py MPH: 
# 读 取 多 个 文本 文件 
print("Output #145:") 
inputPath = sys.argv[1] 
for input file in glob.glob(os.path.join(inputPath, '*.txt')): 
with open(input file, 'r', newline='') as filereader: 
for row in filereader: 
print("{}".format(row.strip())) 


这 个 示例 中 的 第 一 行 代码 与 读 取 单个 文本 文件 示例 中 的 代码 非常 相似 ， 只 是 在 这 个 示例 
中 ， 要 提供 一 个 目录 路 径 名 ， 而 不 是 一 个 文件 路 径 名 。 这 里 ， 要 提供 的 路 径 指向 包含 了 
两 个 文本 文件 的 目录 。 








` 
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第 二 行 代 码 是 for 循环 ， 使 用 os.path.join 函数 和 glob.glob 函数 来 找 出 符合 特定 模式 的 
某 个 文件 夹 下 面 的 所 有 文件 。 指 向 这 个 文件 夹 的 路 径 包 含 在 变量 inputpath 中 ， 这 个 变量 
将 在 命令 行 中 被 提供 。os.path. join voci ig sel Alea ANE 
定 模 式 的 文件 名 连接 起 来 ， 这 种 特定 模式 可 以 由 glob.glob 国 数 扩展 。 这 个 示例 使 用 的 是 
模式 *.txt 来 匹配 由 .txt 结尾 的 所 有 文件 名 。 因 为 这 是 一 个 for 循环 ， 所 以 这 行 中 其 人 的 
代码 你 应 该 很 熟悉 了 。input_file 是 一 个 占 位 符 ， 表 示 由 glob.glob 函数 生成 的 列表 中 的 
每 个 文件 。 这 行 代码 的 意义 就 是 ， 对 于 匹配 文件 列表 中 的 每 个 文件 ， 做 下 面 的 操作 …… 


余下 的 代码 和 读 取 单个 文件 的 代码 非常 相似 。 以 只 读 方 式 打开 eee File aoe 然后 
创建 一 个 filereader 对 象 。 对 于 filereader 对 象 中 的 每 一 行 ， 除 去 行 两 端的 空格 、 制 
表 符 和 换行 符 ， 然 后 打印 这 一 行 。 

(5) 重新 保存 first _script.py. 

(6) 要 读 取 这 些 文本 文件 ， 输 入 以 下 代码 ， 如 图 1-14 所 示 ， 然 后 按 回 车 键 : 


python first script.py "C:\Users\[Your Name]\Desktop" 






















































































t Windows [Version 6.1.7601] 
Copyright ici 2009 Microsoft Corporation. All rights reserved. 


C:NUsersNClinton»cd Desktop 


C:NUsersNClintonNDesktop»python first script.py "C:NUsersNClintonNDesktop" 











图 1-14: 命令 行 窗口 中 的 Python 脚本 和 指向 包含 文本 文件 的 桌面 文件 夹 的 路 径 


这 样 ， 你 就 在 Python 中 读 取 了 多 个 文本 文件 。 你 会 看 到 以 下 内 容 被 打印 到 屏幕 上 ， 在 以 前 
m (图 1-15) : 


This 

text 
comes 
from 

a 
different 
text 
file. 
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I'm 
already 
much 
better 
at 
Python. 





B Command prompt m Ee 
#138: 1° ETE 
#139: 4 5 7 
#140: 5.0 
#141 (Error): nan 
#141 (Error): float division by zero 
#142 (Error): nan 
#142 (Error): float division by zero 
#142 (Finally): The finally block is executed every time 
#145: 


H 
8 9 10 








IC: \Users\Clinton\Desktop> 











1-15: first script.py 的 输出 ， 在 命令 行 窗口 中 处 理 多 个 文本 文件 


学 会 这 项 技术 的 一 个 巨大 好 处 是 它 可 以 规模 化 扩展 。 这 个 示例 只 是 处 理 两 个 文本 文件 ， 但 是 
它 可 以 轻松 地 扩展 为 处 理 几 十 、 几 百 或 者 儿 千 其 至 更 多 的 文件 。 学 习 了 如 何 使 用 glob.glob 
函数 ， 仅 花费 手动 处 理 的 一 小 部 分 时 间 ， 就 可 以 处 理 非常 非常 多 的 文件 。 


17 与 入 文本 文件 


迄今 为 止 ， 大 多 数 示例 还 是 使 用 print 语句 将 输出 发 送 到 命令 行 窗口 或 终端 窗口 。 当 你 在 
调试 程序 ， 或 者 在 检查 输出 的 准确 度 时 ， 将 输出 打印 到 屏幕 上 是 有 意义 的 。 但 是 ， 在 很 多 
情况 下 ， 只 要 你 能 确定 输出 是 正确 的 ， 就 会 需要 将 输出 写 和 文件， 以 进行 更 进一步 的 分 
析 、 报 告 和 存储 。 
Python 提供 了 两 种 简单 的 方法 来 将 输出 写 入 文本 文件 和 分 隔 符 文件 。write 方法 可 将 单个 
字符 串 写 入 一 个 文件 ，writelines 方法 可 将 一 系列 字符 串 写 入 一 个 文件 。 下 面 的 两 个 示例 
使 用 range 函数 和 Len 函数 跟踪 一 个 列表 中 的 索引 值 ， 以 将 分 隔 符 放 在 各 个 列表 值 之 间 ， 
并 在 最 后 一 个 列表 值 后 面 放 上 一 个 换行 符 。 


1.7.1 向 first_script.py 添 加 代码 


(1) 将 下 面 各 行 代 码 添加 到 first. script.py 的 底部 : 
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# 写 入 文件 
# 写 入 一 个 文本 文件 
ny-letters = [a "bY. *c', 'd', “ers SRS "gs "hh, Mts tg*] 
max index = len(my letters) 
output file - sys.argv[1] 
filewriter - open(output file, 'w') 
for index value in range(len(my letters)): 
if index value « (max index-1): 
filewriter.write(my_letters[index_value]+'\t') 
else: 
filewriter.write(my_letters[index_value]+'\n') 
filewriter.close() 
print "Output #146: Output written to file" 


在 这 个 例子 中 ， 变 量 my_letters 是 一 个 字符 串 列 表 。 这 里 想 把 这 些 字 母 打印 到 一 个 文 
本 文件 中 ， 每 个 字母 之 间 用 制 表 符 分 隔 。 这 个 示例 中 的 难点 是 确保 在 字母 之 间 以 制 表 符 
分 隔 ， 并 在 最 后 一 个 字母 后 面 放 上 一 个 换行 符 (不 是 制 表 符 )。 


为 了 知道 什么 时 候 到 达 最 后 一 个 字母 ， 你 需要 跟踪 列表 中 字母 的 索引 值 。Len 函数 用 来 计 
算出 列表 中 字母 的 数量 ， 所 以 max index 等 于 10。 在 命令 行 窗 口 或 终端 窗口 中 ， 再 次 使 
用 sys.argv[1] 来 在 命令 行 中 提供 输出 文件 的 路 径 名 。 创 建 一 个 文件 对 象 filewriter, 但 
是 打开 方式 不 是 只 读 ， 而 是 通过 w (可 写 ) 的 方式 打开 。 使 用 for 循环 在 列表 my. Vetters 
WME ZIRE TIAL, HHEH range 函数 和 Len 函数 跟踪 列表 中 各 个 字母 的 索引 值 。 


if-else 语句 可 以 使 你 对 列表 中 的 最 后 一 个 字母 做 出 与 前 面 那些 字母 不 同 的 处 理 。if- 
else 语句 是 这 样 工作 的 : my letters 包含 10 个 元 素 ， 但 是 索引 从 0 开始 ， 所 以 各 个 字 
BEAD A SIE A SÆ OL 1. 2. 3. 4. 5, 6, 7, 8, 9, KJE, my letters[0] # a, my_ 
letters[9] 是 jo if 代码 块 判断 索引 值 x 是 否 小 于 9，max_index - 1 或 者 是 10 - 1 = 9, 
直到 列表 中 的 最 后 一 个 字母 ， 这 个 条 件 才 为 True。 因 此 ，if 代码 块 的 意义 是 : 一 直到 
列表 中 的 最 后 一 个 字母 ， 都 向 输出 文件 中 写 和 字母， 并 在 字母 后 面 加 一 个 制 表 符 。 当 你 
到 达 了 列表 中 的 最 后 一 个 字母 时 ， 这 个 字母 的 索引 值 为 9， 不 大 于 9， 所 以 if 代码 块 判 
断 为 False， 就 执行 else 代码 块 。else 代码 块 中 的 write 语句 的 意义 是 : 向 输出 文件 中 
写 入 最 后 一 个 字母 ， 并 在 后 面 加 一 个 换行 符 。 
(2) 将 前 面 读 取 多 个 文件 的 代码 注释 掉 。 

为 了 看 到 这 些 代码 是 如 何 工作 的 ， 这 里 需要 写 和 一 个 文件 然后 查看 输出 。 因 为 你 又 一 次 
使 用 了 argv[1] 来 确定 输出 文件 的 路 径 名 ， 所 以 需要 将 前 面 的 glob 代码 删除 或 注释 掉 ， 
这 样 就 可 以 使 用 argv[1] 来 确定 输出 文件 了 。 如 果 选 择 注 释 掉 前 面 的 glob 代码 ， 那 么 
first_script.py 应 该 如 下 所 示 : 

Hie 读 取 多 个 文本 文件 

#print("Output #145:") 

#inputPath = sys.argv[1] 

#for input file in glob.glob(os. path. join(inputPath, '*.txt')): 

# with open(input_file, 'r', newline='') as #filereader: 


# for row in filereader: 
# print("{}".format(row.strip())) 


(3) 重新 保存 first_script.py. 
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(4) 要 写 入 一 个 文本 文件 ， 输 入 下 面 的 代码 ， 如 图 1-16 所 示 ， 然 后 按 回 车 键 : 


python first script.py "C:\Users\[ Your Name]\Desktop\write_to_file.txt" 








t windows [Version 6.1.7601 
ht (c) 2009 Microsoft Corporation. All rights reserved. 


linton»cd Desktop 


Ic: \Users\Clinton\Desktop>python first script.py "C:\Users\Clinton\Desktop\write_to_file.txt" 

















图 1-16: 应 该 在 命令 行 窗口 中 输入 的 Python 脚本 、 文 件 路 径 和 输出 文件 名 


(5) 打开 输出 文件 write_to_file.txt。 
这 样 ， 你 就 使 用 Python 将 输出 写 和 信 了 一 个 文本 文件 。 在 完成 这 些 步 又 之 后 ， 你 不 会 在 屏幕 
上 看 到 新 的 输出 但是， 如 果 你 将 所 有 打开 的 窗口 最 小 化 ， 就 会 看 到 桌面 上 有 一 个 新 的 文 
本 文件 ， 名 为 write_to_file.txt。 这 个 文件 中 应 该 包含 了 列表 my letters 中 的 字母 ， 以 制 表 
符 隔 开 ， 最 后 有 一 个 换行 符 ， 如 图 1-17 所 示 。 






























































1-17: 输出 文件 write to file.txt, EB first script.py 在 桌面 上 创建 








下 一 个 示例 与 这 个 很 相似 ， 只 是 它 演示 了 如 何 使 用 str 函数 来 将 元 素 转换 为 字符 串 ， 以 便 
使 用 write 函数 将 其 写 入 一 个 文件 。 它 还 演示 了 使 用 ‘a’ GED) 方式 将 输出 追加 到 一 个 
已 经 存在 的 输出 文件 末尾 的 方法 。 


1.7.2 写 入 CSV 文 件 
(1) 将 下 列 各 行 代码 添加 到 first_script.py 的 底部 : 


# 写 入 CSV 文 件 
my numbers = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 
max index = len(my numbers) 
output file - sys.argv[1] 
filewriter - open(output file, 'a') 
for index value in range(len(my numbers)): 
if index value « (max index-1): 
filewriter.write(str(my numbers[index value])*',') 
else: 
filewriter .write(str(my_numbers[index_value])+'\n') 
filewriter.close() 
print "Output #147: Output appended to file" 


这 个 示例 与 前 面 的 示例 非常 相似 ， 但 是 它 说 明了 如 何 向 已 经 存在 的 输出 文件 中 追加 内 
容 ， 以 及 如 何 将 列表 中 的 非 字 符 串 数据 转换 成 字符 串 ， 以 便 可 以 使 用 write 函数 来 写 入 
文件 。 在 这 个 示例 中 ， 列 表 中 的 元 素 是 整数 。write 函数 处 理 的 是 字符 串 ， 所 以 在 你 使 
用 write 函数 将 其 写 入 输出 文件 之 前 ， 需 要 使 用 str 函数 将 非 字 符 串 数据 转换 成 字符 串 。 


在 使 用 for 循环 进行 第 一 次 迭代 时 ，str 函数 会 向 输出 文件 中 写 入 一 个 0， 然 后 写 入 一 个 
逗号 。 以 这 种 方式 继续 写 入 列表 中 的 其 他 数值 ， 直 到 列表 中 的 最 后 一 个 数值 ， 这 时 执行 
else 代码 块 ， 将 最 后 一 个 数值 写 入 输出 文件 ， 并 在 后 面 加 上 一 个 换行 符 ， 而 不 是 逗号 。 
请 注意 在 打开 文件 对 象 filewriter 时 ， 使 用 的 是 追加 模式 ('a')， 而 不 是 可 写 模式 
('w')。 如 果 在 命令 行 中 提供 了 同样 的 输出 文件 名 ， 那 么 这 段 代 码 的 输出 会 被 追加 到 
write_to_file.txt 文件 中 ， 在 以 前 写 入 文件 的 内 容 之 后 。 相 反 ， 如 果 使 用 可 写 方式 打开 
filewriter 对 象 ， 那 么 以 前 的 输出 会 被 删除 ，write_to_file.txt 文件 中 只 会 出 现 这 段 代码 
的 输出 。 你 会 在 本 书后 面 的 章节 中 看 到 使 用 追加 方式 打开 文件 的 作用 ， 这 时 你 要 处 理 多 
个 文件 ， 并 将 其 中 所 有 的 数据 追加 到 一 个 连接 文件 中 。 

(2) 重新 保存 first, script.py. 

(3) 要 向 文本 文件 中 追加 数据 ， 输 入 以 下 命令 然后 按 回 车 键 ，; 


python first script.py "C:\Users\[Your Name]\Desktop\write_to_file.txt" 
(4) 打开 输出 文件 write to file.txt, 


这 样 ， 你 就 使 用 Python 向 文本 文件 中 写 入 和 追加 了 数据 。 在 完成 这 些 步骤 之 后 ， 你 不 会 
在 屏幕 上 看 到 新 的 输出 ; 但是， 如 果 你 打开 了 write _ to_file.txt 文件 ， 会 看 到 文件 中 出 现 了 
新 的 一 行 ， 行 中 包括 了 ny numbers 中 的 数值 ， 以 逗号 隔 开 ， 并 在 末尾 有 一 个 换行 符 ， 如 图 
1-18 所 示 。 
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1-18; 桌面 上 的 输出 文件 write to file.txt, EB first script.py 追加 了 信息 





最 后 ， 这 个 示例 演示 了 一 个 写 入 CSV 文件 的 有 效 方 法 。 实 际 上 ， 在 前 面 的 例子 中 ， 你 将 
由 制 表 符 分 隔 的 数据 写 入 了 输出 文件 ， 如 果 将 制 表 符 改 为 逗号 ， 并且 将 输出 文件 命名 为 
write to file.csv 而 不 是 write_to_file.txt 的 话 ， 就 可 以 创建 一 个 CSV Xf, 


1.8 ”print 语 句 


print 语句 非常 有 助 于 程序 调试 。 你 已 经 看 到 ， 本 章 中 很 多 示例 程序 都 使 用 print 语句 
为 输出 。 但 是 ， 你 还 可 以 在 代码 中 临时 添加 print 语句 来 检查 中 间 结 果 。 如 果 你 的 代码 
行 不 了 或 者 不 能 产生 你 需要 的 结果 ， 那 么 可 以 在 程序 开头 适当 的 地 方 添加 print 语句 ， 
看 最 初 的 计算 是 否 符合 你 的 预期 。 如 果 符 合 ， 就 继续 检查 下 面 的 代码 ， 看 看 它们 是 否 按照 
你 的 预期 工作 。 


从 脚本 开头 进行 检查 ， 可 以 保证 你 找 出 第 一 个 出 错 的 地 方 并 在 检查 余下 的 代码 之 前 进行 修 
复 。 本 市 的 中 心思 想 就 是 : 不 要 将 吾 在 程序 中 使 用 print 语句 ， 它 可 以 帮助 你 调试 代码 并 
保证 代码 正确 。 当 你 确信 代码 正确 之 后 ， 完 全 可 以 将 print 语句 注释 掉 或 删除 。 


这 一 章 介 绍 了 很 多 基础 知识 ， 包 括 如 何 导入 模块 、 基 本 的 数据 类 型 和 与 之 相关 的 函数 和 方 
法 、 模 式 匹配 、print 语句 、 日 期 处 理 、 控 制 流 、 函 数 、 异 常 、 读 取 单 个 或 多 个 文件 ， 以 
及 写 入 文本 文件 和 分 隔 符 文件 。 如 果 你 一 直 跟 随 本 章 中 的 示例 进行 练习 ， 那 么 你 已 经 写 了 
500 多 行 Python 代码 了 ! 


练习 本 章 中 示例 代码 的 最 大 好 处 是 ， 它 们 是 编写 更 复杂 的 文件 处 理 和 数据 操作 程序 的 基 
础 。 熟 练 掌握 了 本 章 中 的 示例 代码 ， 你 就 可 以 理解 并 掌握 本 书后 续 章 节 介绍 的 各 种 技术 。 
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1.9 本 章 练 习 


练习 答案 在 附录 B 中 。 

(1) 创建 一 个 新 的 Python 脚本 ， 在 它 里 面 创建 3 个 不 同 的 列表 ， 将 这 3 个 列表 相 加 ， 并 使 
用 for 循环 和 定位 索引 (也 就 是 range(len())) 在 列表 中 循环 ， 在 屏幕 上 打印 出 列表 的 
索引 值 和 元 素 值 。 

(2) 创建 一 个 新 的 Python 脚本 ， 在 它 里 面 创建 两 个 同样 长 度 的 不 同 列表 ， 其 中 一 个 列表 包 
含有 具有 唯一 性 的 字符 串 。 再 创建 一 个 空 字典 。 使 用 for 循环 、 定 位 索引 和 if 语句 检查 
字符 串 列 表 中 的 每 个 元 素 是 否 是 字典 中 的 键 。 如 果 不 是 ， 将 这 个 元 素 作为 字典 键 ， 将 另 
一 个 列表 中 具有 同样 索引 位 置 的 元 素 作为 字典 值 ， 把 它们 添加 到 字典 中 。 最 后 在 屏幕 上 
打印 出 字典 的 键 和 值 。 

(3) 创建 一 个 新 的 Python 脚本 ， 在 它 里 面 创建 一 个 列表 ， 其 中 的 元 素 是 具有 相同 长 度 的 列 
表 。 修 改 1.7.2 节 中 的 代码 ， 在 列表 的 列表 中 循环 ， 将 每 个 列表 中 的 值 以 逗号 隔 开 的 字 
符 串 形式 打印 在 屏幕 上 ， 并 在 每 个 列表 的 最 后 一 个 值 后 面 加 上 一 个 换行 符 。 
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第 2 章 





CSV 文 件 


CSV (comma-separated value， 喜 号 分 隔 值 ) 文件 格式 是 一 种 非常 简单 的 数据 存储 与 分 享 


方式 。CSYV 文件 将 数据 表格 存 
数值 或 字符 串 。 与 Excel 文件 相 比 ，CSV 文件 的 一 个 主要 优点 是 有 很 多 程序 可 以 存储 、 转 
换 和 处 理 纯 文 本 文件 ， 相 比 之 下 ， 能 够 处 理 Excel 文件 的 程序 却 不 多 。 所 有 电子 表格 程序 、 





文字 处 理 程序 或 简单 的 文本 编辑 器 都 可 以 处 理 纯 文本 文件 ， 但 不 是 所 有 的 程序 都 能 处 理 
Excel 文件 。 尽 管 Excel 是 一 个 
被 局 限 在 Excel 提供 的 功能 范围 
务 的 时 候 可 以 选择 合适 的 工具 来 处 理 数 据 














开发 二 个 | 


嵌 为 纯 文 本 ， 表 格 (或 电子 表格 ) 中 的 每 个 单元 格 都 是 一 个 




















功能 非常 强大 的 工具 ， 但 是 当 你 使 用 Excel 文件 时 ， 还 是 会 























Al. CSV 文件 则 为 你 提供 了 非常 大 的 自由 ， 使 你 在 完成 任 





























如 有 果 疫 有 现成 的 工具 ， 那 就 使 用 Python 自己 


当 你 使 用 CSV 文件 时 ， 确 实 会 失去 某 些 Excel SHAE: 在 Excel 电子 表格 中 ， 每 个 单元 格 都 
有 一 个 定义 好 的 “类 型 ”( 数 值 、 文 本 、 货 币 、 日 期 等 )，CSV 文件 中 的 单元 格 则 只 是 原 
始 数据 。 季 好 ，Python 在 识别 不 同 数据 类 型 方面 相当 聪明 ， 第 1 章 中 已 经 展示 了 这 一 点 。 
使 用 CSV 文件 的 另 一 个 问题 是 它 只 能 保存 数据 ， 不 能 保存 公式 。 但 是 ， 通 过 将 数据 存储 


(CSV 文件 ) 和 数据 处 理 

















处 理 。 当 数据 存储 和 数据 处 到 






































E (Python 脚本 ) 分 离 ， 你 可 以 很 容易 地 在 不 同 数据 集 上 进行 加 工 




















过 程 分 开 进行 时 ， 错 误 (不 管 是 数据 处 理 中 的 错误 ， 还 是 数 





据 存储 中 的 错误 ) 不 但 更 容易 被 发 现 ， 而 且 更 难 扩散 。 


要 使 用 CSV 文件 开始 工作 ， 需 要 先 创 建 一 个 CSV 文件 ， 你 可 以 从 以 下 地 址 (https://github 
.com/cbrownley/foundations-for-analytics-with-python/blob/master/csv/supplier data.csv) 下 载 


这 个 文件 ， 步 又 如 下 。 











(1) 打开 一 个 新 的 电子 表格 ， 向 其 中 加 入 数据 ， 如 图 2-1 所 示 。 
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A B C D E F G 

1 |Supplier Name |Invoice Number Part Number Cost Purchase Date 

2 Supplier X (001-1001 2341 $500.00 1/20/2014 
3 Supplier X 001-1001 2341 $500.00 1/20/2014 
4 Supplier X 001-1001 5467 $750.00 1/20/2014 
5 Supplier X 001-1001 5467 $750.00 1/20/2014 
6 Supplier Y 50-9501 7009 $250.00 1/30/2014 
7 Supplier Y 50-9501 7009 $250.00 1/30/2014 
8 Supplier Y 50-9505 6650 $125.00 2/3/2014 
9 Supplier Y 50-9505 6650 $125.00 2/3/2014 
10 Supplier Z 920-4803 3321 $615.00 2/3/2014 
11 Supplier Z 920-4804 3321 $615.00 2/10/2014 
12 Supplier Z 920-4805 3321 $615.00 2/17/2014 
13 Supplier Z 920-4806 3321 $615.00 2/24/2014 

















(2) 将 文 从 


要 确认 supplier data.csv 确实 是 纯 文 本 文件 。 


& 2-1: 


向 supplier. data.csv 文件 中 添加 数据 


保存 在 桌面 上 上， 文件 名 为 supplier_data.csv。 








(1) 将 所 有 打开 的 窗口 最 小 化 ， 在 桌面 上 找到 supplier_data.csv, 





(2) 在 文人 





F 上 点 击 鼠 标 右键 。 


(3) 选择 “Open with”， 然 后 选择 一 个 文本 编辑 器 ， 


当 你 在 文 





本 编辑 器 中 打开 这 个 文件 时 ， 它 看 上 去 应 该 如 








如 Notepad, Notepad++ 或 Sublime Text, 
图 2-2 所 示 。 











plier data - Notepad 


Supplier X,001-1001,2341,$500.00,1/20/14 
Supplier X,001-1001,2341,$500.00,1/20/14 
Supplier X,001-1001,5467,$750.00,1/20/14 
Supplier X,001-1001,5467,$750.00,1/20/14 
Supplier Y,50-9501,7009,$250.00,1/30/14 
Supplier Y,50-9501,7009,$250.00,1/30/14 
Supplier Y,50-9505,6650,$125.00,2/3/14 
Supplier Y,50-9505,6650,$125.00,2/3/14 
Supplier Z,920-4803,3321,$615.00,2/3/14 
Supplier Z,920-4804,3321,$615.00,2/10/14 
Supplier Z,920-4805,3321,$615.00,2/17/14 
Supplier Z,920-4806,3321,$615.00,2/24/14 








& 2-2: N 


otepad 中 的 supplier. data.csv 文件 
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正如 你 所 看 到 的 ， 这 个 文件 是 一 个 简单 的 纯 文本 文件 。 每 行 包含 5 个 由 逗号 分 隔 的 值 。 对 这 
种 文件 的 另 一 种 理解 是 由 喜 号 划 定 了 Excel 电子 表格 中 的 5 列 。 现 在 你 可 以 关闭 这 个 文件 了 。 


2.1 基础 Python 与 pandas 


前 言 中 曾 提 到 过 ， 本 章 的 每 一 小 节 都 提供 两 种 版 本 的 代码 来 完成 具体 的 数据 处 理 任务 。 每 
小 节 中 的 第 一 种 代码 版 本 展示 了 如 何 使 用 基础 Python 来 完成 任务 。 第 二 种 版 本 展示 了 如 
何 使 用 pandas 来 完成 任务 。 你 会 看 到 ， 使 用 pandas 完成 任务 相对 来 说 更 容易 ， 需 要 的 代 
码 更 少 。 所 以 ， 如 果 你 已 经 理解 了 pandas 简化 了 的 编程 概念 和 操作 ， 只 是 要 简单 完成 任 
务 的 话 ，pandas 版 的 代码 就 非常 有 用 。 但 是 ， 每 个 小 节 都 会 先 介 绍 基础 Python 版 本 的 代 
码 ， 以 使 你 学 会 如 何 使 用 通用 的 编程 概念 和 操作 来 完成 任务 。 通 过 介绍 两 种 代码 版 本 ， 希 
望 可 以 给 你 如 下 选择 : 一 是 使 用 pandas 快速 完成 任务 ， 二 是 学 习 通 用 的 编程 技能 ， 并 在 提 
高 编码 能 力 的 基础 上 获得 解决 问题 的 能 力 。 对 于 pandas 版 本 的 代码 ， 本 章 的 解释 不 会 像 
基础 Python 版 那样 详细 ， 你 可 以 将 这 里 的 示例 代码 当 作 使 用 pandas 完成 任务 的 指导 手册 
来 使 用 。 当 你 完成 了 本 书 中 的 练习 之 后 ， 如 果 想 成 为 pandas 专家 ， 建 议 你 继续 学 习 Wes 
McKinney 的 著作 《利用 Python 进行 数据 分 析 》。 


2.1.1 读 写 CSV 文 件 (第 1 部 分 ) 

1. 基础 Python， 不 使 用 csv 模 块 

现在 开始 学 习 如 何 使 用 基础 Python 代码 来 读 写 和 处 理 CSV 文件 (不 使 用 内 置 的 csv 模 
块 )。 先 看 看 下 面 的 示例 代码 ， 然 后 当 你 使 用 csv 模块 时 ， 就 会 知道 代码 在 幕后 都 做 了 些 
Trés 

要 处 理 CSV 文件 ， 先 新 建 一 个 Python 脚本 ， 名 为 1csv. read. with simple parsing and 
write.py。 

在 Spyder 或 一 个 文本 编辑 器 中 输入 下 列 代码 : 


1 #!/usr/bin/env python3 
2 import Sys 
3 













































































4 input file - sys.argv[1] 
5 output file - sys.argv[2] 
6 


7 with open(input file, 'r', newline-'') as filereader: 

8 with open(output file, 'w', newline='') as filewriter: 

9 header = filereader.readline() 

10 header - header.strip() 

11 header list - header.split(',') 

12 print(header list) 

13 filewriter.write(','.join(map(str,header_list))+'\n') 
14 for row in filereader: 

15 row = row.strip() 

16 row_list = row.split(',') 

17 print(row list) 

18 filewriter.write(','.join(map(str,row_list))+'\n') 








在 桌面 上 ， 将 程序 保存 为 lcsv_read_with simple_parsing_and_write.py。 











图 23、 图 2-4 和 图 
TextWrangler (macOS) 编写 脚本 的 界面 。 











2-5 分 别 展示 了 使 用 Anaconda Spyder, Notepad++ (Windows) 


和 
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图 2-3: Anaconda Spyder 中 的 Python 脚本 1csv. read with simple parsing and write.py 
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File Edit Search View Encoding Language Settings Macro Run Plugins Window ? 
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El Tesv read with simple parsing and write py EJ 





1 #!/usr/bin/env python3 
































length :645 





2 

3 import sys 

4 

5 input file = sys.argv[1] 

6 output file = sys.argv[2] 

7 

8 ewith open(input file, 'r', newline='') as filereader: 

PE with open(output file, 'w', newline='') as filewriter: 

LO header = filereader.readline!() 

jt header = header.strip() 

12 header list = header.split(',') 

[3 print(header list) 

1 4 filewriter.write(','.join(map(str,header list))+'\n') 
B for row in filereader: 

L6 row = row.strip() 

I: row list = row.split(',') 

18 print (row list) 

US) filewriter.write(','.join(map(str,row list))-*' Nob) 





DosWindows UTF-8 


lines: 19 Ln:1 Col:1 Sel:010 INS 4 











& 2-4; Notepad++ (Windows) 中 的 Python 脚本 1csv. read with simple parsing and write.py 
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eoe csv. simple. parsing, and, write.py. 
EP ER m File Path v : -/Desktop/foundations-for-analytics-with-python/csv/1csv. simple. parsing. and write.py 
+> BB Tcsv.simple parsing and wite.py $ (no symbol selected) $ Pel PE 


#1/usr/bin/env python3 


import sys 


output_file = sys.argv[2] 


* with open(input file, ', newline=") as filereader: 


2 
s input file = sys.argv[1] 
6 
** with open(output file, 'w', newline=") as filewriter: 


10 header = filereader.readline() 

" header - header.strip() 

12 header list = header.split(',') 

13 print(header list) 

“ filewriter.write(','.join(map(str,header_list))+"\n') 

aM for row in filereader: 

16 row = row.strip() 

17 row list = row.split(’,’) 

18 print(row_list) 

19 filewriter.write(’,'.join(map(str,row_list))+'\n') 
‘Te ae) aaka UU S ETET 











2-5: TextWrangler (macOS) 中 的 Python 脚本 1csv_read_with_simple_parsing_and_write.py 





在 运行 脚本 并 查看 输出 之 前 ， 先 研究 一 下 脚本 中 的 代码 想 做 些 什么 。 这 里 将 按照 顺序 依次 
讨论 每 个 代码 块 〈 下 面 提 到 的 行 编号 指 的 是 屏幕 截图 中 的 行 编号 ) 。 

it! /usr/bin/env python3 

import sys 
正如 第 1 章 中 讨论 过 的 ， 第 1 行 是 注释 行 ， 可 以 使 脚本 在 不 同 的 操作 系统 之 间 具 有 可 移植 
性 。 第 3 行 代码 导入 Python 内 置 的 sys 模块 ， 可 以 使 你 在 命令 行 窗 口中 向 脚本 发 送 附加 的 
输入 。 

input file = sys.argv[1] 

output file - sys.argv[2] 
第 5 和 6 行 代码 使 用 sys 模块 的 argv 参数 ， 它 是 一 个 传递 给 Python 脚本 的 命令 行 参数 列 
表 ， 也 就 是 当 你 运行 脚本 时 在 命令 行 中 输入 的 内 容 。 下 面 给 出 了 一 个 在 Windows 系统 中 使 
用 命令 行 参数 读 取 CSV 格式 的 输入 文件 和 写 入 CSV 格式 的 输出 文件 的 例子 : 


python script name.py "C:\path\to\input_file.csv" "C:\path\to\output_file.csv" 


第 一 个 词 python 告诉 计算 机 使 用 Python 程序 来 处 理 其 余 的 命令 行 参 数 。Python 收集 其 余 
的 参数 ， 放 入 argy 这 个 特殊 的 列表 中 。 列 表 中 的 第 一 个 元 素 argv[6] 用 作 脚 本 名 称 ， 所 以 
argv[0] 表示 Script_name.py。 下 一 个 命令 行 参数 是 "C:\path\toNinput_fite.csv"， 即 CSV 
输入 文件 的 路 径 和 文件 名 。Python 将 这 个 参数 保存 在 argv[1] 中 ， 所 以 脚本 第 5 行 代码 将 
这 个 值 赋 给 变量 input_file。 最 后 一 个 命令 行 参数 是 "C:\path\to\output_file.csv"， 即 
CSV 输出 文件 的 路 径 和 文件 名 。Python 将 这 个 参数 保存 在 argv[2] 中 ， 第 6 行 代 码 把 这 个 
值 赋 给 了 变量 output file, 










































































52 | 第 2 章 


with open(input file, 'r', newline='') as filereader: 
with open(output file, 'w', newline='') as filewriter: 


第 8 行 代码 是 一 个 with 语句 ， 将 input. file 打开 为 一 个 文件 对 象 filereader。'r' 表示 只 
读 模 式 ， 说 明 打 开 input file 是 为 了 读 取 数 据 。 第 9 行 代码 是 另 一 个 with 语句 ， 将 output. 
File 打开 为 一 个 文件 对 象 filewriter, 'w' 表示 可 写 模式 ， 说 明 打 开 output file 是 为 了 写 
入 数据 。 正 如 1.5.3 节 中 介绍 的 那样 ，with 语句 非常 有 用 ， 因 为 它 可 以 在 语句 结束 时 自动 关 
闭 文件 对 象 。 

header = filereader.readline() 


header - header.strip() 
header list - header.split(',') 


第 10 行 代码 使 用 文件 对 象 的 readline 方法 读 取 输 入 文件 中 的 第 一 行 数据 ， 在 本 例 中 ， 
第 一 行 是 标题 行 ， 读 入 后 将 其 作为 字符 串 并 赋 给 名 为 header 的 变量 。 第 11 行 代码 使 用 
string 模块 中 的 strip 函数 去 掉 header 中 字符 串 两 端的 空格 、 制 表 符 和 换行 符 ， 并 将 处 理 
过 的 字符 串 重 新 赋 给 header。 第 12 行 代码 使 用 string 模块 的 split 国 数 将 字符 串 用 逗号 
拆 分 成 列表 ， 列 表 中 的 每 个 值 都 是 一 个 列 标题 ， 最 后 将 列表 赋 给 变量 header list, 


print(header list) 
filewriter.write(','.join(map(str,header_list))+'\n') 


第 13 行 代码 是 一 个 print 语句 ， 将 header list 中 的 值 (也 就 是 列 标题 ) 打印 到 屏幕 上 。 


第 14 行 代码 使 用 filewriter 对 象 的 write 方法 将 header. list 中 的 每 个 值 写 入 输出 文件 。 
因为 这 行 代码 比较 复杂 ， 所 以 需要 仔细 说 明 一 下 。map 函数 将 str 函数 应 用 于 header list 
中 的 每 个 元 素 ， 确 保 每 个 元 素 都 是 字符 串 。 然 后 ，join 函数 在 header list 中 的 每 个 值 之 
间 播 入 一 个 逗号 ， 将 这 个 列表 转换 为 一 个 字符 串 。 在 此 之 后 ， 在 这 个 字符 串 最 后 添加 一 个 
换行 符 。 最 后 ，fitewriter 对 象 将 这 个 字符 吕 写 入 输出 文件 ， 作 为 输出 文件 的 第 一 行 。 
for row in filereader: 

row - row.strip() 

row list - row.split(',') 

print(row list) 

filewriter.write(','.join(map(str,row_list))+'\n') 


第 15 行 代码 创建 了 一 个 for 循环 ， 在 输入 文件 剩余 的 各 行 中 迭代 。 第 16 行 代码 使 用 
strip 函数 除去 每 行 字符 串 两 端的 空格 、 制 表 符 和 换行 符 ， 然 后 将 处 理 过 的 字符 串 重 新 赋 
给 变量 row。 第 17 行使 代码 用 split 函数 用 逗号 将 字符 串 拆 分 成 一 个 列表 ， 列 表 中 的 每 个 
值 都 是 这 行 中 某 一 列 的 值 ， 然 后 ， 将 列表 赋 给 变量 row_list。 第 18 行 代码 将 row list 中 
的 值 打印 到 屏幕 上 。 第 19 行 代 码 将 这 些 值 写 入 输出 文件 。 
脚本 对 输入 文件 中 的 每 一 行 数据 都 执行 第 16~19 行 代 码 ， 因 为 这 4 行 代码 在 第 15 行 代 码 
中 的 for 循环 下 面 是 缩 进 的 。 
你 可 以 在 命令 行 窗 口 或 终端 窗口 中 通过 运行 脚本 做 一 下 测试 。 如 下 所 示 。 
。 命令 行 窗 口 (Windows) 

(1) 打开 一 个 命令 行 窗口 。 
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(2) 切换 到 桌面 (你 存放 Python 脚本 的 地 方 )。 
要 完成 这 个 操作 ， 输 入 以 下 命令 ， 然 后 按 回 车 键 : 


cd "C:\Users\[Your Name]\Desktop" 











(3) 运行 Python 脚本 。 
要 完成 这 个 操作 ， 输 入 以 下 命令 ， 然 后 按 回 车 键 : 


python 1csv simple parsing and write.py supplier data.csv| 
output filesMoutput.csv 


。 %3%%8 2 (macOS) 


(1) 打开 一 个 终端 窗口 。 
(2) 切换 到 桌面 (你 存放 Python 脚本 的 地 方 ) 。 


要 完成 这 个 操作 ， 输 入 以 下 命令 ， 然 后 按 回 车 键 : 
cd /Users/[Your Name]/Desktop 
(3) 为 Python 脚本 添加 可 执行 权限 。 
要 完成 这 个 操作 ， 输 入 以 下 命令 ， 然 后 按 回 车 键 : 


chmod «x 1csv simple parsing and write.py 

















(4) 运行 Python 脚本 。 
要 完成 这 个 操作 ， 输 入 以 下 命令 ， 然 后 按 回 车 键 ， 


./1csv_simple_parsing_and_write.py supplier_data.csv\ 
output_files/loutput.csv 


如 图 2-6 所 示 ， 你 会 看 到 输出 被 打印 到 命令 行 窗 口 或 终端 窗口 中 。 











Microsoft corporation. All rights reserved. 


: | w parsing and write.py supplier data.csv output files/loutput.csv 
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图 2-6; 运行 Python 脚本 1csv. read with simple parsing and write.py 的 输出 结 





输入 文件 中 的 所 有 行 都 被 打印 到 了 屏幕 上 ， 也 被 号 信 了 输出 文件 。 在 多 数 情况 下 ， 你 不 
要 将 输入 文件 中 的 所 有 数据 重新 写 到 输出 文件 中 ， 因 为 输入 文件 中 就 有 所 有 的 数据 。 但 是 




















邮 


个 例子 仍然 是 非常 有 用 的 ， 因 为 你 可 以 参考 例子 中 的 代码 ， 将 fileurtter.write if 58) f 
入 到 带 有 判断 条 s 件 的 业务 逻辑 中 ， 确 保 你 只 将 需要 的 某 些 行 写 人 输出 文件 。 


2. pandas 


要 使 用 pandas 处 理 CSV 文件 ， 在 文本 编辑 器 中 输入 下 列 代码 ， 并 将 文件 保存 为 pandas_ 
parsing_and_write.py (这 个 脚本 读 取 CSV 文件 ， 在 屏幕 上 打印 文件 内 容 ， 并 将 内 容 写 入 一 
个 输出 文件 ) : 


#!/usr/bin/env python3 

import sys 

import pandas as pd 

input file = sys.argv[1] 

output file - sys.argv[2] 

data frame - pd.read csv(input file) 
print(data frame) 

data frame.to csv(output file, index-False) 


要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 命 令 在 不 同 的 操作 系统 中 会 有 些 差 
。 Windows 操作 系统 


python pandas parsing and write.py supplier data.csvV 
output filesMpandas output.csv 


























3 
o 





。 macOS 操作 系统 


chmod +x pandas parsing and write.py 
./pandas parsing and write .py supplier data.csvV 
output files/pandas output.csv 


你 会 注意 到 在 pandas 版 的 脚本 中 ， 创 建 了 一 个 变量 data_frame。 同 列表 、 字 典 与 元 组 相 
似 ， 数 据 框 也 是 存储 数据 的 一 种 方式 。 数 据 框 中 保留 了 “表格 ”这 种 数据 组 织 方式 ， 不 需 
要 使 用 列表 套 列 表 的 方式 来 分 析 数 据 。 数 据 框 包含 在 pandas 包 中 ， 如 果 你 不 在 脚本 中 导入 
pandas， 就 不 能 使 用 数据 框 。 人 在 学 
习 阶 段 ， 这 样 做 是 可 以 的 ， 但 是 以 后 ， 你 应 该 使 用 更 有 描述 性 的 变量 名 。 

















脏 数 据 

现实 世界 中 ， 数 据 通常 是 “ 脏 ” 的 。 有 些 值 会 因为 某 些 原因 而 缺失 ， 手 工 输入 或 传 感 
器 出 错 都 可 以 造成 数据 错误 。 某 些 情况 下 ， 人 们 会 故意 记 下 错误 的 数据 ， 因 为 只 能 这 
样 做 。 我 曾经 见 过 在 餐厅 收据 中 ， 将 乐 啤 露 记 为 “可 乐 (加 奶酪)”， 因 为 结账 系统 中 
没有 “ 乐 啤 露 ” 这 个 选项 ， 所 以 使 用 系统 的 店员 就 加 入 了 这 个 订单 选项 ， 并 告知 了 订 
餐 员 和 打 饮 料 的 服务 员 。 但 是 这 样 一 来 ， 负 责 跟踪 库存 和 订货 的 管理 人 员 就 有 一 大 堆 
奇怪 的 数据 需要 核实 了 。 

在 电子 表格 数据 中 ， 你 也 会 遇 到 这 样 的 问题 ， 并 想 出 解决 的 办 法 。 在 练习 各 章 中 的 示 
例 代 码 时 ， 也 要 注意 这 种 情况 。 请 记 住 每 个 人 都 会 遇 到 “ 脏 ” 数 据 的 问题 ， 这 是 数据 
分 析 工 作 中 最 令 人 头疼 也 是 最 令 人 兴奋 的 部 分 ， 通 常 也 是 工作 量 最 大 的 部 分 ， 这 是 必 
须要 做 的 工作 | 
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2.1.2 SACER S A SO RY 


基本 的 CSV 分 析 失 败 的 一 个 原因 是 列 中 包 


列 中 的 最 后 两 个 成 本 数量 分 别 改 为 $6,015. P s $1,006,015.00。 做 完 这 














入 文件 应 如 图 2-7 所 示 。 


含 额外 的 逗号 。 打 开 supplier_data.csv， 将 Cost 


文 两 个 修改 之 后 ， 输 


























1 

2 SupplierX 001-1001 
3 SupplierX 001-1001 
4 SupplierX 001-1001 
5 SupplierX 001-1001 
6 Supplier Y 50-9501 
7 Supplier Y 50-9501 
8 Supplier Y 50-9505 
9 Supplier Y 50-9505 
10 Supplier Z 920-4803 
11 Supplier Z 920-4804 
12 Supplier Z 920-4805 
13 Supplier Z 920-4806 


H 








2341 
2341 
5467 
5467 
7009 
7009 
6650 
6650 
3321 
3321 
3321 
3321 


D 


Supplier Name |Invoice Number Part Number Cost 


$500.00 
$500.00 
$750.00 
$750.00 
$250.00 
$250.00 
$125.00 
$125.00 
$615.00 
$615.00 
$6,015.00 
$1,006,015.00 





E F 
Purchase Date 

1/20/2014 
1/20/2014 
1/20/2014 
1/20/2014 
1/30/2014 
1/30/2014 

2/3/2014 

2/3/2014 

2/3/2014 
2/10/2014 
2/17/2014 
2/24/2014 


a M IET 








& 2-7: 修改 后 的 输入 文件 (supplier data.csv) 


的 简单 的 分 析 脚 本 如 何 失 败 ， 曲 需要 在 修改 后 的 
然后 按 向 上 箭头 键 ， 行 过 


修改 了 输入 文件 之 后 ， 要 看 看 你 尼 





1e nr 保存 修改 后 的 文件 ， 

















重新 输入 以 下 命令 ， 然 后 按 回 车 键 : 


python 1csv_simple_parsing_and_write.py supplier_data.csv\ 

















output_files\1output.csv 


你 会 看 到 输出 被 打印 到 屏幕 上 ， 如 





图 2-8 所 示 。 





找到 之 前 运 


新 输入 文件 





的 命令 ， 或 者 





ion 





All rights r 


ta.csv output, filesMloutput. 





csv 





2-8: 在 修改 后 的 supplier_data.csv 上 运行 脚本 











你 可 以 看 到 ， 这 里 的 脚本 是 按照 行 中 的 逗号 分 析 每 行 数 据 的 。 此 脚本 对 标题 行 和 前 10 个 
数据 行 的 处 理 都 是 正确 的 ， 因 为 它们 没有 嵌入 到 数据 中 的 有 逗号。 但是， 脚本 错误 地 拆 分 了 
最 后 两 行 ， 因 为 数据 中 有 逗号 。 

有 许多 方法 可 以 改进 这 个 脚本 中 的 代码 ， 处 理 包含 逗号 的 数值 。 例 如 ， 可 以 使 用 正则 表达 
式 来 搜索 带 有 嵌入 逗号 的 模式 ， 就 像 $6,015.00 和 $1,006,015.00， 然 后 删除 这 些 值 中 的 过 
号 ， 再 使 用 余下 的 和 逗号 来 拆 分 行 。 但 是 ， 为 了 不 使 脚本 复杂 化 ， 可 以 使 用 Python 内 置 的 
csv 模块 ， 设 计 这 个 模块 的 目的 就 是 为 了 方便 灵活 地 处 理 复杂 的 CSV 文件 。 


2.1.3 读 写 CSV 文 件 〈 第 2 部 分 ) 


基础 Python， 使 用 csv 模 块 
使 用 Python 内 置 的 csv 模块 处 理 CSV 文件 的 一 个 优点 是 ， 这 个 模块 就 是 被 设计 用 于 正确 
处 理 数 据 值 中 的 典 入 逗号 和 其 他 复杂 模式 的 。 它 可 以 识别 出 这 些 模式 并 正确 地 分 析 数 据 ， 
所 以 你 不 需要 仅仅 为 了 正确 处 理 数 据 而 花费 时 间 来 设计 正则 表达 式 和 条 件 逻 辑 ， 可 以 将 节 
省 的 时 间 用 来 管理 数据 、 执 行 计算 和 写 入 输出 。 


接 下 来 导入 Python 内 置 的 csv 模块 并 用 它 来 处 理 包含 数值 $6,015.00 和 $1,006,015.00 的 输 
入 文件 。 你 将 学 会 如 何 使 用 csv 模块 ， 并 理解 它 是 如 何 处 理 数 据 中 的 逗号 的 。 


在 文本 编辑 器 中 输入 以 下 代码 ， 并 将 文件 保存 为 2csv_reader_parsing_and_write.py: 


1 #!/usr/bin/env python3 

2 import csv 

3 import sys 

4 input file - sys.argv[1] 

5 output file - sys.argv[2] 

6 with open(input file, 'r', newline='') as csv in file: 





































































































7 with open(output file, 'w', newline-'') as csv out file: 

8 filereader = csv.reader(csv in file, delimiter=',') 

9 filewriter = csv.writer(csv out file, delimiter=',') 
10 for row list in filereader: 

11 print(row list) 

12 filewriter.writerow(row list) 








你 可 以 看 到 ， 上 面 大 部 分 代码 与 前 一 个 脚本 中 的 代码 非常 相似 。 所 以 ， 这 上 
明显 区 别 的 代码 。 


第 2 行 代码 导入 csv 文件 ， 以 便 可 以 使 用 其 中 的 函数 来 分 析 输 入 文件 ， 写 入 输出 文件 。 


第 8 行 代码 ， 就 是 在 第 二 个 with 语句 下 面 的 那 行 代码 ， 使 用 csv 模块 中 的 reader 函数 创 
建 了 一 个 文件 读 取 对 象 ， 名 为 filereader ， 可 以 使 用 这 个 对 象 来 读 取 输入 文件 中 的 行 。 同 
样 ， 第 9 行 代码 使 用 csv 模块 的 writer 函数 创建 了 一 个 文件 写 和 人 对象， 名 为 filewriter, 
可 以 使 用 这 个 对 象 将 数据 写 入 输出 文件 。 这 些 函 数 中 的 第 二 个 参数 (就 是 delimiter=',') 
是 默认 分 隔 符 ， 所 以 如 果 你 的 输入 文件 和 输出 文件 都 是 用 逗号 分 阳 的 ， 就 不 需要 指定 这 个 
参数 。 这 里 指定 了 这 个 分 隔 符 参数 ， 是 为 了 防备 你 处 理 的 输入 文件 或 要 写 和 人 的 输出 文件 具 
有 不 同 的 分 隔 符 ， 例 如 ， 分 号 G) 或 制 表 符 (t). 


第 12 行 代码 使 用 fileuriter 对 象 的 writerow 国 数 来 将 每 行 中 的 列表 值 写 人 输出 文件 。 


pa 





只 讨论 那些 有 
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假设 输入 文件 和 Python 脚本 都 保存 在 你 的 桌面 上 ， 你 也 没有 在 命令 行 或 终端 行 窗口 中 改变 
目录 ， 在 命令 行 中 输入 以 下 命令 ,然后 按 回 车 键 运行 脚本 (如 果 你 使 用 Mac， 需 要 对 新 的 
脚本 先 运行 chmod 命令 ， 使 它 成 为 可 执行 的 ) : 

python 2csv reader parsing and write.py supplier data.csv\ 

output filesM2output.csv 


你 可 以 看 到 输出 被 打印 到 屏幕 上 ， 如 
































Ds 








2-9 所 示 。 








Mi So W ersion 6.1.7601] 
Copyright ( icrosoft Corporation. All rights reserved. 


lintonNDesktop»python NH E ite.py suppl ens aa output. filesX2output.csv 
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图 2-9: 运行 Python 脚本 得 到 的 输出 


输入 文件 中 的 所 有 行 都 被 打印 到 了 屏幕 上 ， 同 时 被 写 入 到 输出 文件 。 你 可 以 看 到 ，Python 
内 置 的 csv 模块 处 理 了 租 入 数据 的 逗号 问题 ， 正 确 地 将 每 一 行 拆 分 成 了 5 个 值 。 


我 们 知道 了 如 何 使 用 csv 模块 来 读 取 、 处 理 和 写 入 CSV 文件 ， 下 面 开 始 学 习 如 何 得 选 出 特 
定 的 行 以 及 如 何 选 择 特定 的 列 ， 以 便 可 以 有 效 地 抽取 出 需要 的 数据 。 


za "Y re ^77 
2.2 筛选 特定 的 行 
有 些 时 候 ， 你 并 不 需要 文件 中 所 有 的 数据 。 例 如 ， 你 可 能 只 需要 一 个 包含 特定 词 或 数字 的 
行 的 子 集 ， 或 者 是 与 某 个 具体 日 期 关联 的 行 的 子 集 。 在 这 些 情况 下 ， 可 以 用 Python 筛选 
特定 的 行 来 使 用 。 
你 应 该 很 熟悉 如 何在 Excel 中 手动 第 选 行 ， 但 是 本 章 的 重点 在 于 提高 你 的 能 力 ， 使 你 既 
处 理 因 为 体积 太 大 以 致 Excel 不 能 打开 的 CSV 文件 ， 又 能 处 理 多 个 CSV 文件 。 因 为 要 i 
过 手动 处 理 这 些 文件 ， 时 间 花 费 太 多 了 。 
下 面 各 小 节 演 示 了 在 输入 文件 中 筛选 出 特定 行 的 3 种 方法 : 
© 行 中 的 值 满足 某 个 条 从 
。 行 中 的 值 属于 某 个 集合 
。 行 中 的 值 匹配 于 某 个 模式 (正则 表达 式 ) 
你 会 发 现 这 些小 节 中 的 代码 在 结构 上 是 一 致 的 。 接 下 来 会 详细 解释 这 种 通用 结构 ， 使 你 可 
以 轻松 地 修改 代码 来 满足 自己 的 业务 规则 。 
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在 下 面 的 3 个 小 节 中 ， 请 注意 以 下 结构 ， 从 而 来 理解 如 何 从 输入 文件 中 筛选 出 特定 的 行 : 


for row in filereader: 
***if value in row meets some business rule or set of rules:*** 
do something 
else: 
do something else 


这 段 伪 代码 展示 了 用 来 在 输入 文件 中 筛选 出 特定 行 的 通用 代码 结构 。 在 下 面 的 小 节 中 ， 会 
修改 封装 在 *** 之 间 的 代码 ， 以 使 脚本 能 够 满足 具体 业务 规则 ， 抽 取出 你 需要 的 数据 。 


2.2.1 行 中 的 值 满足 某 个 条 件 

1. 基础 Python 

有 些 时 候 ， 当 行 中 的 值 满足 一 个 具体 条 件 时 ， 才 需要 保留 这 些 行 。 例 如 ， 你 可 能 会 希望 在 
数据 集中 保留 那些 成 本 高 于 某 个 具体 国 值 的 行 ， 或 者 希望 保留 所 有 购买 日 期 在 一 个 具体 日 
期 之 前 的 行 。 在 这 种 情况 下 ， 你 可 以 检验 行 中 的 值 是 否 满足 具体 的 条 件 ， 然 后 算 选 出 满足 
条 件 的 行 。 

下 面 的 示例 演示 了 检验 行 值 是 否 满足 两 个 具体 条 件 的 方法 ， 并 将 满足 条 件 的 行 的 子 集 写 入 
一 个 输出 文件 。 在 这 个 示例 中 ， 保 留 供应 商 名 字 为 Supplier Zz 或 成 本 大 于 $600.00 的 行 ， 
并 将 结果 写 入 输出 文件 。 要 筛选 出 满足 这 些 条 件 的 行 的 子 集 ， 在 文本 编辑 器 中 输入 以 下 代 
码 ， 将 文件 保存 为 3csv_reader_value_meets_condition.py: 

































































#!/usr/bin/env python3 

import csv 

import sys 

input file = sys.argv[1] 

output file - sys.argv[2] 

with open(input file, 'r', newline='') as csv in file: 

with open(output file, 'w', newline='') as csv out file: 

filereader = csv.reader(csv in file) 

9 filewriter = csv.writer(csv out file) 

10 header = next(filereader) 

11 filewriter.writerow(header) 

12 for row list in filereader: 

13 supplier - str(row list[0]).strip() 

14 cost = str(row list[3]).strip('$').replace(',', '') 

15 if supplier == 'Supplier Z' or float(cost) > 600.0: 

16 filewriter.writerow(row list) 


第 10 行 代码 使 用 csv 模块 的 next 国 数 读 出 输入 文件 的 第 一 行 ， 赋 给 名 为 header 的 列表 变 
量 。 第 11 行 代码 将 标题 行 写 入 输出 文件 。 

第 13 行 代码 取出 每 行 数据 中 的 供应 商 名 字 ， 并 赋 给 名 为 supplier 的 变量 。 这 行 代码 使 用 
列表 索引 取出 每 行 数据 的 第 一 个 值 row[9] ， 然 后 使 用 str 国 数 将 其 转换 为 一 个 字符 串 。 在 
此 之 后 ， 使 用 strip 函数 删除 字符 串 两 端的 空格 、 制 表 符 和 换行 符 。 最 后 ， 将 处 理 好 的 字 
符 串 赋 给 变量 supplier, 


第 14 行 代 码 取出 每 行 数据 中 的 成 本 ， 并 赋 给 名 为 cost 的 变量 。 这 行 代码 使 用 列表 索引 取 
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出 每 行 数据 的 第 四 个 值 row[3]， 然 后 使 用 str 函数 将 其 转换 为 一 个 字符 串 。 在 此 之 后 ， 使 
用 strip 函数 从 字符 串 中 删除 美元 符号 。 接 着 使 用 replace 函数 从 字符 串 中 删除 过 号。 最 
后 ， 将 处 理 好 的 字符 串 赋 给 变量 cost, 

第 15 行 代码 创建 了 一 个 if 语句 ， 来 检验 每 行 中 的 这 两 个 值 是 否 满 足 条 件 。 有 具体 来 说 ， 这 
里 想 筛 选 出 供应 商 名 字 为 Supplier Z 或 者 成 本 大 于 $600.00 的 那些 行 。if 和 or 之 间 的 第 
一 个 条 件 检 验 变量 supplier 中 的 值 是 否 为 Supplier Z, or 和 冒号 之 间 的 第 二 个 条 件 检验 
变量 cost 中 的 值 在 被 转换 为 浮 点 数 之 后 ， 是 否 大 于 600.0。 


第 16 行 代码 使 用 fitewriter 的 writerow 函数 将 满足 条 件 的 行 写 入 输出 文件 。 
要 运行 这 个 脚本 ,输入 以 下 命令 ， 然 后 按 回 车 键 : 


python 3csv reader value meets condition.py supplier data.csv\ 
output filesM3output.csv 


在 屏幕 上 你 不 会 看 到 任何 输出 ， 但 可 以 打开 输出 文件 3output.esv 看 一 下 结果 。 检 查 一 下 ， 
确保 结果 正确 ， 然 后 可 以 修改 一 下 代码 ， 设 定 不 同 的 供应 商 或 成 本 国 值 ， 试 着 划 选 一 下 其 
他 数据 。 


2. pandas 
pandas 提供 了 一 个 loc 国 数 ， 可 以 同时 选择 特定 的 行 与 列 。 你 需要 在 和 喜 号 前 面 设 定 行 筛选 
AE, EEs Je A Be EF iE RE, TATE Voc 函数 中 的 条 件 设置 为 : Supplier Name 列 
中 姓名 包含 Zz， 或 者 Cost 列 中 的 值 大 于 600.0， 并 且 需 要 所 有 的 列 。 在 文本 编辑 器 中 输入 
以 下 代码 ， 将 文件 保存 为 pandas_value_meets_condition.py (这 个 脚本 使 用 pandas 来 分 析 
CSV 文件 ， 并 将 满足 条 件 的 行 写 人 输出 文件 )。 

it! /usr/bin/env python3 

import pandas as pd 

import sys 

input file - sys.argv[1] 

output file - sys.argv[2] 

data frame - pd.read csv(input file) 

data frame['Cost'] = data frame['Cost'].str.strip('$').astype(float) 

data frame value meets condition = data frame.loc[(data frame['Supplier Name']\ 


.str.contains('Z')) | (data frame['Cost'] » 600.0), :] 
data frame value meets condition.to csv(output file, index-False) 


在 命令 行 中 运行 脚本 ， 并 给 出 数据 源 文件 和 输出 文件 。 


python pandas value meets condition.py supplier_data.csv\ 
output filesMpandas output.csv 


在 屏幕 上 你 不 会 看 到 任何 输出 ， 但 可 以 打开 输出 文件 pandas. output.esv 看 一 下 结果 。 试 试 
修改 一 下 loc 函数 中 的 参数 ， 选 择 出 另外 一 些 数据 。 


2.2.2 行 中 的 值 属于 某 个 集合 


1. 基础 Python 
有 些 时 候 ， 当 行 中 的 值 属于 某 个 集合 时 ， 才 需要 保留 这 些 行 。 例 如 ， 你 可 能 会 希望 在 
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数据 集中 保留 那些 供应 商 名 字 属 于 集合 {Supplier X, Supplier Y} 的 行 (这 里 的 花 括号 
表示 集合 ， 不 是 Python 中 的 字典 )， 或 者 希望 保留 所 有 购买 日 期 属于 集合 C 1/20/14, 
'1/30/14'} 的 行 。 在 这 种 情况 下 ， 你 可 以 检验 行 中 的 值 是 否 属 于 茶 个 集合 ， 然 后 筛选 出 具 
有 属于 该 集合 的 值 的 行 。 
下 面 的 示例 演示 了 检验 行 值 是 否 是 集合 成 员 的 方法 ， 并 将 具有 集合 中 的 值 的 行 写 人 到 输出 
文件 。 在 这 个 示例 中 ， 是 要 保留 那些 购买 日 期 属于 集合 {'1/20/14', '1/30/14'} 的 行 ， 并 
将 结果 写 入 输出 文件 。 要 筛选 出 值 属于 这 个 集合 的 行 的 子 集 ， 在 文本 编辑 器 中 输入 以 下 代 
码 ， 并 将 文件 保存 为 4csv_reader_value_in_set.py: 















































1 #!/usr/bin/env python3 

2 import csv 

3 import sys 

4 input file - sys.argv[1] 

5 output file - sys.argv[2] 

6 important dates - ['1/20/14', '1/30/14'] 

7 with open(input file, 'r', newline='') as csv in file: 


8 with open(output file, 'w', newline-'') as csv out file: 
9 filereader = csv.reader(csv in file) 

10 filewriter = csv.writer(csv out file) 

11 header = next(filereader) 

12 filewriter.writerow(header) 

13 for row list in filereader: 

14 a date - row list[4] 

15 if a date in important dates: 

16 filewriter.writerow(row list) 





第 6 行 代码 创建 了 一 个 名 为 Wportant dates 的 列表 变量 ， 其 中 包含 两 个 特定 日 期 ， 这 个 
变量 就 是 你 的 集合 。 创 建 包含 特定 值 的 变量 ， 然 后 在 代码 中 引用 变量 ， 这 种 编写 代码 的 方 
式 非常 有 用 。 使 用 了 这 种 方式 ， 如 果 变 量 值 发 生 了 变化 ， 你 只 需 在 一 个 地 方 修改 代码 (就 
是 定义 变量 的 地 方 )， 变 量 值 的 变化 就 会 反映 到 代码 中 所 有 引用 该 变量 的 地 方 。 

第 14 行 代码 取出 每 一 行 的 购买 日 期 ， 并 将 其 赋 给 变量 a_date。 从 行列 表 的 索引 值 row[4] 
可 知 ， 购 买 日 期 在 第 5 列 。 

第 15 行 代码 创建 了 一 个 if 语句 来 检验 a date 变量 中 的 购买 日 期 是 否 属于 important_ 
dates 这 个 集合 。 如 果 变 量 值 在 集合 中 ， 下 一 行 代码 就 将 这 一 行 写 人 输出 文件 。 

在 命令 行 中 运行 下 面 脚本 : 


python 4csv reader value in set.py supplier data.csv output files/4output.csv 


你 可 以 打开 输出 文件 4output.csv 来 检查 结果 。 
2. pandas 
当 行 中 的 值 属于 某 个 集合 时 ， 如 何 使 用 pandas 筛选 出 这 些 行 呢 ? 在 文本 编辑 器 中 输入 以 下 
代码 ， 然 后 将 文件 保存 为 pandas_value_in_set.py (这 个 脚本 分 析 CSV 文件 ， 并 将 值 属于 某 
个 集合 的 行 写 入 输出 文件 ) : 


#!/usr/bin/env python3 
import pandas as pd 































































































CSV 文 件 | 61 


import Sys 

input file - sys.argv[1] 

output file - sys.argv[2] 

data frame - pd.read csv(input file) 

important dates - ['1/20/14', '1/30/14'] 

data frame value in set = data frame.loc[data frame['Purchase Date'].\ 
isin(important dates), :] 

data frame value in set.to csv(output file, index-False) 


这 里 最 重要 的 新 命令 就 是 简洁 的 isin。 
和 以 前 一 样 ， 在 命令 行 中 运行 脚本 ， 并 给 出 源 数据 文件 名 和 输出 文件 名 : 
python pandas value in set.py supplier data.csv output_files\pandas_output.csv 


你 可 以 打开 输出 文件 pandas. output.csv 来 检查 结果 。 


2.2.3 行 中 的 值 匹 配 于 某 个 模式 /正则 表达 式 


1. 基础 Python 

有 些 时候 ， 当 行 中 的 值 匹配 了 或 包含 了 一 个 特定 模式 〈 也 就 是 正则 表达 式 ) 时 ， 才 需要 保 
留 这 些 行 。 例 如 ， 你 可 能 会 希望 在 数据 集中 保留 所 有 发 票 编 号 开始 于 “001-” 的 行 ， 或 者 
希望 保留 所 有 供应 商 名 字 中 包含 “Y” 的 行 。 在 这 种 情况 下 ， 你 可 以 检验 行 中 的 值 是 否 匹 
配 或 包含 某 种 模式 ， 然 后 筛选 出 匹配 了 或 包含 了 该 模式 的 行 。 

下 面 的 示例 演示 了 如 何 检验 某 个 值 是 否 匹配 特定 的 模式 ， 并 将 具有 这 种 值 的 行 写 和 人 输出 文 
件 。 在 这 个 示例 中 ， 保 留 发 票 编号 由 “001-” 开 头 的 行 ， 并 将 结果 写 和 一 个 输出 文件 。 要 
筛选 出 某 个 值 匹 配 了 这 个 模式 的 行 ， 在 文本 编辑 器 中 输入 下 列 代 码 ， 然 后 将 文件 保存 为 


5esv reader value matches pattern.py : 










































































#!/usr/bin/env python3 
import csv 
import re 
import sys 
input file = sys.argv[1] 
output file - sys.argv[2] 
pattern = re.compile(r'(?P«my pattern group»^001-.*)', re.I) 
with open(input file, 'r', newline='') as csv in file: 
with open(output file, 'w', newline='') as csv out file: 
filereader = csv.reader(csv in file) 
filewriter = csv.writer(csv out file) 
header - next(filereader) 
filewriter.writerow(header) 
for row list in filereader: 
invoice number - row list[1] 
if pattern.search(invoice number): 
filewriter.writerow(row list) 


第 3 行 代码 导入 正则 表达 式 (re) 模块 ， 这 样 就 可 以 使 用 re 模块 中 的 函数 了 。 


第 7 行 代码 使 用 re 模块 的 compile 函数 创建 一 个 名 为 pattern 的 正则 表达 式 变量 。 如 果 
你 学 习 了 第 1 章 ， 那 么 应 该 很 熟悉 这 个 函数 。r 表示 将 单 引 号 之 间 的 模式 当 作 原始 字符 
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串 来 处 理 。 


元 字符 ?P<my_pattern_group> 捕获 了 名 为 «my pattern group» 的 组 中 匹配 了 的 子 字符 串 ， 
以 便 在 需要 时 将 它们 打印 到 屏幕 或 写 入 文件 。 


这 里 要 搜索 的 实际 模式 是 ^001- .*。 插 入 符号 (^) 是 一 个 特殊 符号 ， 表 示 只 在 字符 串 开头 
搜索 模式 。 所 以 ， 字 符 串 需要 以 “001-” 开 头 。 名 点. 可 以 匹配 任何 字符 ， 除 了 换行 符 。 
所 以 除 换行 符 之 外 的 任何 字符 都 可 以 跟 在 “001-” 后 面 。 最 后 ，* 表示 重复 前 面 的 字符 0 
次 或 更 多 次 。.* 组 合 在 一 起 用 来 表示 除 换行 符 之 外 的 任意 字符 可 以 在 “001-” 后 面 出 现任 
意 次 。 更 通俗 的 说 法 是 : 字符 串 在 “-” 后 面 可 以 包含 任意 值 ， 只 要 字符 串 开始 于 “001-”， 
就 会 匹配 正则 表达 式 。 


最 后 ， 参 数 re.I 告诉 正则 表达 式 进行 大 小 写 敏感 的 匹配 。 此 参数 在 这 个 示例 中 不 是 太 重 
要 ， 因 为 模式 是 数值 型 的 ， 但 是 它 说 明了 在 模式 中 包含 字符 并 且 需 要 进行 大 小 写 敏 感 的 匹 
配 时 ， 应 该 如 何 设置 参数 。 


第 15 行 代码 使 用 列表 索引 从 行 中 取出 发 票 编号 ， 并 赋 给 变量 invoice_number。 在 下 一 行 
中 ， 将 在 这 个 变量 中 寻找 模式 。 

第 16 行 代码 使 用 re 模块 的 search 函数 在 invoice number 的 值 中 寻找 模式 。 如 有 果 模 式 出 
现在 invoice number 值 中 ， 第 17 行 代码 就 将 这 行 写 入 输出 文件 。 

要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 : 


python 5csv reader value matches pattern.py supplier_data.csv\ 
output_files\5output.csv 


你 可 以 打开 输出 文件 Soutput.csv 来 查看 结果 。 
2. pandas 
要 使 用 pandas 筛选 出 匹配 于 某 个 模式 的 行 ， 在 文本 编辑 器 中 输入 下 列 代 码 ， 然 后 将 文件 保 
存 为 pandas_value_matches_pattern.py (这 个 脚本 读 取 CSV 文件 ， 将 匹配 于 某 个 模式 的 行 
打印 在 屏幕 上 ， 并 将 同样 的 行 写 入 输出 文件 ) s 
#!/usr/bin/env python3 
import pandas as pd 
import sys 
input file = sys.argv[1] 
output file - sys.argv[2] 
data frame - pd.read csv(input file) 
data frame value matches pattern = data frame.loc[data frame['Invoice Number'].\ 


str.startswith("001-"), :] 
data frame value matches pattern.to csv(output file, index-False) 


使 用 pandas 时 ， 可 以 使 用 startwith 函数 来 搜索 数据 ， 不 用 再 使 用 笨重 元 长 的 正则 表达 式 
了 。 要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 : 


python pandas value matches pattern.py supplier_data.csv\ 
output filesMpandas output.csv 


你 可 以 打开 输出 文件 pandas. output.csv 查看 一 下 结果 。 
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2.3 选取 特定 的 列 
有 些 时 候 ， 你 并 不 需要 文件 中 所 有 的 列 。 在 本 节 示 例 中 ， 可 以 使 用 Python 选取 出 你 需要 的 列 。 
有 两 种 通用 方法 可 以 在 CSV 文件 中 选取 特定 的 列 。 下 面 各 小 节 演 示 了 这 两 种 方法 ; 


。 使 用 列 索引 值 
。 使 用 列 标题 


2.3.4 JAHA 


1. 基础 Python 

在 CSV 文件 中 选取 特定 列 的 一 种 方法 是 使 用 你 想 保留 的 列 的 索引 值 。 当 你 想 保 留 的 列 的 索 
引 值 非常 容易 识别 ， 或 者 在 处 理 多 个 输入 文件 时 ， 各 个 输入 文件 中 列 的 位 置 一 致 ( 也 就 是 
不 会 发 生 改变 ) 的 时 候 ， 这 种 方法 非常 有 效 。 例 如 ， 如 果 你 只 需要 保留 数据 的 第 一 列 和 最 
后 一 列 ， 那 么 你 可 以 使 用 row[0] 和 row[-1] 来 将 每 行 的 第 一 个 值 和 最 后 一 个 值 写 入 文件 。 


在 这 个 示例 中 ， 你 只 想 保留 供应 商 姓 名 和 成 本 这 两 列 。 要 使 用 索引 值 选取 这 两 列 ， 在 文本 
编辑 器 中 输入 下 列 代码 ， 然 后 将 文件 保存 为 6csv_reader_column_by_index.py: 


1 #!/usr/bin/env python3 

2 import csv 

3 import sys 

4 input file = sys.argv[1] 

5 output file = sys.argv[2] 

6 my columns = [0, 3] 

7 with open(input file, 'r', newline='') as csv in file: 










































































8 with open(output file, 'w', newline='') as csv out file: 

9 filereader = csv.reader(csv in file) 

10 filewriter = csv.writer(csv out file) 

11 for row list in filereader: 

12 row list output - [ ] 

13 for index value in my columns: 

14 row list output.append(row list[index value]) 
15 filewriter.writerow(row list output) 














第 6 行 代码 创建 了 一 个 列表 变量 my_cotumns， 其 中 包含 了 你 想 保留 的 两 列 的 索引 值 。 在 这 
个 示例 中 ， 这 两 个 索引 值 对 应 着 供应 商 姓名 和 成 本 列 。 再 说 一 次 ， 应 该 创建 一 个 包含 索 
引 值 的 变量 ， 然 后 在 代码 中 引用 这 个 变量 。 这 样 ， 如 果 索 引 值 需要 改变 的 话 ， 你 只 需要 
在 一 个 地 方 〈 就 是 定义 my, columns 的 地 方 ) 修改 即 可 ， 修 改 会 反映 到 代码 中 所 有 引用 my_ 
coLumns 的 地 方 。 


第 12~15 行 代码 是 for 循环 下 面 缩 进 的 部 分 ， 所 以 对 于 输入 文件 中 的 每 一 行 都 要 执行 这 
些 代 码 。 第 12 行 代码 创建 了 一 个 空 列表 变量 row_List_output。 这 个 变量 保存 你 在 每 行 中 
要 保留 的 值 。 第 13 行 代码 是 一 个 for 循环 语句 ， 在 my_cloumns 中 的 各 个 索引 值 之 间 进 行 
和 迭代。 第 14 行 代码 通过 列表 的 append 函数 使 用 每 行 中 my, columns 索引 位 置 的 值 为 row_ 
list output 填充 元 素 。 这 3 行 代码 生成 了 一 个 列表 ， 列 表 中 包含 了 每 行 中 你 要 写 和 输出 
文件 的 值 。 创 建 列表 是 有 用 的 ， 因 为 filewriter 的 writerow 方法 需要 一 个 字符 串 序 列 或 
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数值 序列 ， 而 列表 row list out 正 是 一 个 字符 串 序 列 。 第 15 行 代码 将 row list output 中 
的 值 写 入 输出 文件 。 


脚本 会 对 输入 文件 中 的 每 一 行 执行 这 些 代码 。 为 了 确切 地 理解 这 一 系列 操作 ， 下 面 来 看 看 
第 一 次 外 部 for 循环 做 了 些 什 么 。 在 本 例 中 ， 你 处 理 的 是 输入 文件 中 的 第 一 行 (也 就 是 标 
题 行 )。 第 12 行 代码 创建 了 空 列表 变量 row_list_output。 第 13 行 代码 是 一 个 for 循环 ， 
在 my_columns 的 值 之 间 友 代 。 


第 一 次 循环 时 ，index_value 等 于 0， 所 以 第 14 行 代码 中 的 append 函数 将 row[0] (就 是 供 
应 商 姓名 字符 串 ) 加 入 row_List_output。 此 后 ， 代 码 回 到 第 13 行 中 的 for 循环 ， 这 一 次 
index value 等 于 3。 因 为 index value 等 于 3， 所 以 第 14 行 代码 中 的 append 函数 将 row[3] 
(也 就 是 成 本 字符 串 ) 加 入 row list output, my columns 中 没有 更 多 的 值 了 ， 所 以 第 13 行 
中 的 for 循环 结束 ， 代 码 前 进 到 第 15 行 。 第 15 行 代码 将 row list output 中 的 列表 值 写 入 
输出 文件 。 然 后 ， 代 码 回 到 第 11 行 中 的 外 部 for 循环 ， 开 始 处 理 输入 文件 中 的 下 一 行 。 
要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 : 

python 6csv reader column by index.py supplier data.csv output_files\6output.csv 
你 可 以 打开 输出 文件 6output.csv 查看 一 下 结果 。 
2. pandas 
要 使 用 pandas 根据 索引 值 选 取 列 ， 在 文本 编辑 器 中 输入 下 列 代码 ， 然 后 将 文件 保存 为 
pandas_column_by_index.py (这 个 脚本 读 取 CSV 文件 ， 将 索引 值 为 0 和 3 的 列 打印 到 屏 
幕 ， 并 将 同样 的 行 写 入 输出 文件 ) : 

#!/usr/bin/env python3 

import pandas as pd 

import sys 

input_file = sys.argv[1] 

output_file = sys.argv[2] 

data_frame = pd.read_csv(input_file) 


data_frame_column_by_index = data_frame.iloc[:, [0, 3]] 
data_frame_column_by_index.to_csv(output_file, index=False) 


这 里 使 用 了 tloc 函数 来 根据 索引 位 置 选取 列 。 
在 命令 行 中 运行 以 下 脚本 : 


python pandas column by index.py supplier data.csv| 
output filesMpandas output.csv 


你 可 以 打开 输出 文件 pandas. output.csv 查看 一 下 结果 。 


2.3.2” 列 标题 

1. 基础 Python 

在 CSV 文件 中 选取 特定 列 的 第 二 种 方法 是 使 用 列 标题 ， 而 不 是 索引 位 置 。 当 你 想 保留 的 
列 的 标题 非常 容易 识别 ， 或 者 在 处 理 多 个 输入 文件 时 ， 各 个 输入 文件 中 列 的 位 置 会 发 生 改 
变 ， 但 标题 不 变 的 时 候 ， 这 种 方法 非常 有 效 。 
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举例 来 阅 ， 假 设 你 只 需要 保留 发 票 号 码 列 和 购买 日 期 列 。 要 使 用 列 标题 选取 这 两 列 ， 在 文 
本 编辑 器 中 输入 下 列 代码 ， 然 后 将 文件 保存 为 7csv_reader_column_by_name.py: 


#!/usr/bin/env python3 

import csv 

import sys 

input file = sys.argv[1] 

output file - sys.argv[2] 

my columns - ['Invoice Number', 'Purchase Date'] 

my columns index - [] 

with open(input file, 'r', newline='') as csv in file: 
9 with open(output file, 'w', newline='') as csv out file: 
10 filereader = csv.reader(csv in file) 

11 filewriter = csv.writer(csv out file) 

12 header - next(filereader, None) 

13 for index value in range(len(header)): 

14 if header[index value] in my columns: 

15 my columns index.append(index value) 
16 filewriter.writerow(my columns) 

17 for row list in filereader: 

18 row list output - [ ] 

19 for index value in my columns index: 

20 row list output.append(row list[index value]) 
21 filewriter.writerow(row list output) 


这 个 示例 中 的 代码 比 上 一 个 示例 要 稍微 长 一 点 ， 但 是 所 有 代码 看 起 来 都 很 熟悉 。 此 示 
例 中 有 更 多 代码 的 唯一 原因 就 是 ， 你 需要 先 单 独处 理 一 下 标题 行 ， 识 别 出 相 应 标题 行 
对 应 的 索引 值 。 然 后 你 可 以 使 用 索引 值 保留 每 行 中 的 值 ， 这 些 值 和 要 保留 的 列 标题 具 
有 同样 的 索引 值 。 


第 6 行 代码 创建 了 一 个 列表 变量 my_cotumns， 其 中 包含 了 两 个 字符 串 ， 即 要 保留 的 两 列 的 
名 字 。 第 7 行 代码 创建 了 一 个 空 列表 变量 my_columns_index， 要 使 用 两 个 保留 列 的 索引 值 
来 填充 它 。 

第 12 行 代码 在 filereader 对 象 上 使 用 next 函数 从 输入 文件 中 读 出 第 一 行 ， 并 保存 在 列表 
变量 header 中 。 第 13 行 代码 初始 化 在 列 标题 的 索引 值 中 迭代 的 for 循环 。 


第 14 行 代码 使 用 if 语句 和 列表 索引 来 检验 每 个 列 标题 是 否 在 my. columns 中 。 例 如 ， 第 一 
次 for 循环 时 ，index_value 等 于 0， 所 以 if 语句 检验 header[0] (也 就 是 第 一 个 列 标题 供 
应 商 姓 名 ) 是 否 在 my_columns 中 。 因 为 供应 商 姓 名 不 在 my columns 中 ， 所 以 第 15 行 代码 
不 会 对 这 个 值 执行 。 

代码 返回 第 13 行 中 的 for 循环 ， 这 一 次 index value 等 于 1。 然 后 ， 第 14 行 代码 中 的 
if 语句 检验 header[1] (也 就 是 第 二 个 列 标题 发 票 号 码 ) 是 否 在 my columns 中 。 因 为 发 
票 号 码 在 my_columns 中 ， 所 以 执行 第 15 行 代码 ， 将 这 列 的 索引 值 加 入 到 my_columns_ 
index 列表 中 。 


然后 继续 for 循环 ， 最 后 将 购买 日 期 列 的 索引 值 加 入 my_columns_index。 一 旦 for 循环 结 
R, FS 16 行 代码 就 将 my_cotumns 中 的 两 个 字符 串 写 人 输出 文件 。 


第 18~21 行 代码 处 理 输入 文件 中 余下 的 数据 行 。 第 18 行 代码 创建 一 个 空 列 表 row list. 
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output 来 保存 你 要 在 每 一 行 中 保留 的 值 。 第 19 行 代码 中 的 for 循环 在 my columns index 
中 的 索引 值 乙 间 进 代 ， 第 20 行 代码 将 数据 行 中 具有 这 些 索引 值 的 值 加 入 row. list output, 
最 后 ， 第 21 行 代码 将 row list output 中 的 值 写 入 输出 文件 。 

在 命令 行 中 运行 以 下 脚本 : 

python 7csv reader column by name.py supplier data.csv output_files\7output.csv 

你 可 以 打开 输出 文件 7output.csv 查看 一 下 结果 。 

2. pandas 

要 使 用 pandas 根据 列 标题 选取 列 ， 在 文本 编辑 器 中 输入 下 列 代码 ， 然 后 将 文件 保存 为 
pandas_column_by_name.py (这 个 脚本 读 取 CSV 文件 ， 将 发 票 号 码 列 与 购买 日 期 列 打 印 到 
屏幕 ， 并 将 同样 的 列 写 入 输出 文件 ) : 


#!/usr/bin/env python3 

import pandas as pd 

import sys 

input file = sys.argv[1] 

output file - sys.argv[2] 

data frame - pd.read csv(input file) 

data frame column by name - data frame.loc[:, ['Invoice Number', 'Purchase Date']] 
data frame column by name.to csv(output file, index-False) 


这 里 又 一 次 使 用 loc 函数 来 选取 列 ， 这 次 使 用 的 是 列 标题 。 
运行 以 下 脚本 : 
python pandas column by name.py supplier data.csv output_files\pandas_output.csv 


你 可 以 打开 输出 文件 pandas. output.csv 查看 一 下 结果 。 


2.4 选取 连续 的 行 


有 些 时候 ， 在 文件 内 容 中 ， 工 作 表 头 
标题 和 作者 信息 ， 文 件 尾部 也 可 能 会 
下 ， 你 不 需要 处 理 这 些 内 容 。 


为 了 演示 如 何在 CSV 文件 中 选取 连续 的 行 ， 需 要 对 输入 文件 做 如 下 修改 。 


(1) 在 电子 表格 软件 中 打开 supplier_data.csv。 
(2) 在 文件 头 部 插入 3 行 ， 就 在 列 标题 那 行 的 上 面 。 


在 Al:A3 单元 格 中 随便 写 一 些 文字 ， 比 如 “I don’t care about this line” , 
(3) 在 文件 尾部 ， 也 就 是 最 后 一 行 数据 下 面 插 入 3 行 。 
在 最 后 一 行 数据 下 面 A 列 的 3 个 单元 格 中 随便 写 一 些 文字 ， 比 如 “I don’t want this 


line either", 


(4) 将 文件 保存 为 supplier. data unnecessary, header footer.csv。 这 个 文件 应 该 如 图 2-10 所 示 。 






























































和 尾部 都 是 你 不 想 处 理 的 。 例 如 ， 文件 头 部 可 能 是 


列 出 来 源 、 假 设 、 附 加 说 明和 注意 事项 。 在 很 多 情况 
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@ a 6- ea- -= 
HOWE | INSERT  PAGELAOUT FORMULAS DATA RMW VEN 
a oo , (Calpe [nla D-  Bwap tet Gonera Good Neutral 
»r2-|B-|B-A- sexo uA =) 
A B Cc D E F G H 

1 |! don't care about this row 

2 |I don't care about this row 

3 I don't care about this row 

4 Supplier Name Invoice Number Part Number Cost Purchase Date 
5 Supplier X 001-1001 2341 $500.00 1/20/2014 
6 Supplier X 001-1001 2341 $500.00 1/20/2014 
7 Supplier X 001-1001 5467 $750.00 1/20/2014 
8 Supplier X 001-1001 5467 $750.00 1/20/2014 
9 Supplier Y 50-9501 7009 $250.00 1/30/2014 
10 Supplier Y 50-9501 7009 $250.00 1/30/2014 
11 Supplier Y 50-9505 6650 $125.00 2/3/2014 
12 Supplier Y 50-9505 6650 $125.00 2/3/2014 
13 Supplier Z 920-4803 3321 $615.00 2/3/2014 
14 Supplier Z 920-4804 3321 $615.00 2/10/2014 
15 Supplier Z 920-4805 3321 $615.00 2/17/2014 
16 Supplier Z 920-4806 3321 $615.00 2/24/2014 
17 |I don't want this row either 

18 |I don't want this row either 

19 | don't want this row either 

supplier dana necis jade [TOT 














2-10: 在 你 需要 的 行 上 方 和 下 方 具有 无 关 数据 的 CSV 文件 


现在 输入 文件 中 包含 了 你 不 需要 的 头 部 和 尾部 信息 ， 修 改 一 下 Python 脚本 ， 使 它 不 读 取 这 
些 行 。 

1. 基础 Python 

要 使 用 基础 Python 选取 特定 行 ， 这 里 使 用 row counter 变量 来 跟踪 行 编号 ， 以 便 可 以 识别 
和 选取 想 保 留 的 行 。 从 前 面 的 示例 中 ， 你 已 经 知道 了 要 保留 13 行 数据 。 在 下 面 的 if 代码 
块 中 ， 你 可 以 看 到 你 要 写 和 人 输出 文件 中 的 行 就 是 行 索引 大 于 等 于 3 并 小 于 等 于 15 的 行 。 
要 使 用 基础 Python 选取 这 些 行 ， 在 文本 编辑 器 中 输入 下 列 代码 ， 然 后 将 文件 保存 为 1lcsv_ 


reader select contiguous rows.py: 









































1 #!/usr/bin/env python3 

2 import csv 

3 import sys 

4 input file - sys.argv[1] 
5 output file - sys.argv[2] 
6 row counter - 0 

7 with open(input file, 'r', newline='') as csv in file: 

8 with open(output file, 'w', newline='') as csv out file: 
9 filereader = csv.reader(csv in file) 


10 filewriter - csv.writer(csv out file) 

11 for row in filereader: 

12 if row counter »- 3 and row counter «- 15: 

13 filewriter.writerow([value.strip() for value in row]) 
14 row counter += 1 

15 


这 里 使 用 row. counter 变量 和 一 个 话语 句 来 保留 需要 的 行 ， 跳 过 那些 不 需要 的 头 部 和 尾 








部 内 容 。 对 于 输入 文件 的 前 3 行 ， 因 为 row counter 小 于 3， 所 以 不 执行 if 代码 块 ， 并 将 
row counter 的 值 增 加 1, 


对 于 输入 文件 的 最 后 3 fT, row counter 大 于 15， 所 以 也 不 执行 if 代码 块 ， 并 将 row_ 
counter 的 值 增加 1。 


你 要 保留 的 行 在 无 用 的 头 部 和 尾部 之 间 。 对 于 这 些 行 ，row_counter 在 3 和 15 之 间 。if fX 
码 块 处 理 这 些 行 并 将 它们 写 入 输出 文件 。 在 列表 生成 式 中 使 用 string 模块 的 strip 国 数 除 
去 每 行 两 端的 空格 、 制 表 符 和 换行 符 。 


如 果 想 看 看 row counter 变量 的 值 和 每 行 的 内 容 ， 可 以 在 现 有 的 writerow 语句 上 面 加 上 一 


个 print 语句 ， 比 如 print(row counter, [value.strip() for value in row]), 
要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 : 


python 11csv_reader_select_contiguous_rows.py supplier data unnecessary header V 
footer.csv output filesMi1output.csv 


你 可 以 打开 输出 文件 11output.csv 查看 一 下 结果 。 

2. pandas 

pandas 提供 了 drop 函数 根据 行 索引 或 列 标题 来 丢弃 行 或 列 。 在 下 面 的 脚本 中 ，drop FR 
数 从 输入 文件 中 丢弃 前 3 行 和 最 后 3 行 (也 就 是 行 索引 为 0，1,，2 和 16，17，18 的 那些 
行 )。pandas 还 提供 了 功能 强大 的 tloc 函数 ， 你 可 以 使 用 这 个 函数 根据 行 索引 选取 一 个 单 
独行 作为 列 索 引 。 最 后 ， 使 用 reindex 函数 为 数据 框 重 新 生成 索引 。 


使 用 pandas 可 以 保留 列 标题 行 和 数据 行 ， 除 去 不 需要 的 头 部 和 尾部 。 在 文本 编辑 器 中 输入 
下 列 代码 ， 并 将 文件 保存 为 pandas_select_contiguous_rows.py: 


#!/usr/bin/env python3 

import pandas as pd 

import sys 

input_file = sys.argv[1] 

output_file = sys.argv[2] 

data_frame = pd.read_csv(input_file, header=None) 
data_frame = data_frame.drop([0,1,2,16,17,18]) 
data_frame.columns = data_frame.iloc[0] 

data_frame = data_frame.reindex(data_frame.index.drop(3)) 
data_frame.to_csv(output_file, index=False) 


要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 : 


python pandas select contiguous rows.py supplier data unnecessary header V 
footer.csv output_files\pandas_output.csv 


你 可 以 打开 输出 文件 pandas. output.csv 查看 一 下 结果 。 


2.5 添加 标题 行 


有 些 时候 ， 电 子 表格 中 没有 标题 行 ， 但 你 确实 希望 所 有 列 都 有 列 标题 。 在 这 种 情况 下 ， 可 
以 使 用 脚本 添加 列 标题 。 
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为 了 演示 如 何 使 用 脚本 添加 列 标题 ， 需 要 对 输入 文件 做 一 下 修改 : 


(1) 在 电子 表格 程序 中 打开 supplier_data.csv。 
(D) 删除 文件 中 的 第 一 行 ( 即 包含 列 标题 的 标题 行 )。 
(3) 将 文件 保存 为 supplier_data_no_header_row.csv。 如 图 2-11 所 示 。 














gBuo-oci 





A B C D E F G H 
Supplier X |001-1001 2341 $500.00 1/20/2014 
Supplier X 001-1001 2341 $500.00 1/20/2014 
Supplier X 001-1001 5467 $750.00 1/20/2014 
Supplier X 001-1001 5467 $750.00 1/20/2014 
Supplier Y 50-9501 7009 $250.00 1/30/2014 
Supplier Y 50-9501 7009 $250.00 1/30/2014 
Supplier Y 50-9505 6650 $125.00 2/3/2014 
Supplier Y 50-9505 6650 $125.00 2/3/2014 
9 Supplier Z 920-4803 3321 $615.00 2/3/2014 
10 Supplier Z 920-4804 3321 $615.00 2/10/2014 
11 Supplier Z 920-4805 3321 $615.00 2/17/2014 
12 Supplier Z 920-4806 3321 $615.00 2/24/2014 





AN AOU AUN = 


supplier data no header row | @ 














2-11; 包含 数据 行 的 CSV 文件 ， 没 有 标题 行 


1. 基础 Python 
要 使 用 基础 Python 添加 列 标题 ， 在 文本 编辑 器 中 输入 下 列 代码 ， 然 后 将 文件 保存 为 12csv_ 


reader add header row.py: 


1 #!/usr/bin/env python3 

2 import csv 

3 import sys 

4 input file - sys.argv[1] 
5 output file - sys.argv[2] 

6 with open(input file, 'r', newline='') as csv in file: 

7 with open(output file, 'w', newline='') as csv out file: 
8 filereader = csv.reader(csv in file) 


9 filewriter = csv.writer(csv out file) 

10 header list = ['Supplier Name', 'Invoice Number',\ 

11 'Part Number', 'Cost', 'Purchase Date'] 
12 filewriter.writerow(header list) 

13 for row in filereader: 

14 filewriter.writerow(row) 





第 10 行 代码 创建 了 列表 变量 header_List， 其 中 包含 了 要 作为 列 标题 的 5 个 字符 串 。 第 12 
行 代码 将 这 些 列表 值 写 入 输出 文件 的 第 一 行 。 同 样 ， 第 14 行 代码 将 所 有 数据 行 写 入 输出 











文件 ， 放 在 标题 行 下 面 。 
要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 : 


python 12csv_reader_add_header_row.py supplier_data_no_header_row.csv\ 
output_files\12output.csv 


你 可 以 打开 输出 文件 12output.csv 查看 一 下 结果 。 
2. pandas 
pandas 中 的 read. csv 函数 可 以 直接 指定 输入 文件 不 包含 标题 行 ， 并 可 以 提供 一 个 列 标题 列 
表 。 要 给 一 个 没有 标题 行 的 数据 集 添加 标题 行 ， 在 文本 编辑 器 中 输入 下 列 代码 ， 然 后 将 文 
件 保存 为 pandas_add_header_row.py: 

#!/usr/bin/env python3 

import pandas as pd 

import sys 

input_file = sys.argv[1] 

output_file = sys.argv[2] 

header_list = ['Supplier Name', 'Invoice Number',\ 

"Part Number', 'Cost', ‘Purchase Date'] 


data frame = pd.read_csv(input_file, header=None, names-header list) 
data frame.to csv(output file, index-False) 


要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 : 


python pandas add header row.py supplier_data_no_header_row.csv\ 
output filesMpandas output.csv 


你 可 以 打开 输出 文件 pandas. output.csv 查看 一 下 结果 。 


2.6 读 取 多 个 CSV 文 件 


本 章 到 目前 为 止 ， 都 在 演示 如 何 处 理 单个 CSV 文件。 有 些 时 候 ， 你 也 只 需要 处 理 一 个 文 
件 。 在 这 些 情况 下 ， 上 面 的 示例 可 以 告诉 你 如 何 使 用 Python 程序 去 处 理 。 尽 管 只 是 一 个 文 
件 ， 这 个 文件 也 可 能 太 大 ， 不 能 手工 处 理 ， 因 此 用 程序 处 理 文件 还 可 以 减少 人 为 犯错 的 概 
率 ， 比 如 复制 /粘贴 错误 和 输入 错误 。 


但 是 ， 在 大 多 数 情况 下 ， 你 需要 处 理 的 文件 很 多 ， 多 到 使 用 手工 处 理 效率 非常 低 或 者 根本 
不 可 行 。 在 这 种 情况 下 ，Python 会 给 你 惊喜 ， 因 为 它 可 以 让 你 自动 化 和 规模 化 地 进行 数据 
处 理 ， 远 远 超过 手工 处 理 能 够 达到 的 限度 。 这 一 小 节 介 绍 Python 内 置 的 glob 模块 ， 并 在 
本 章 前 面 示例 的 基础 上 ， 演 示 如 何 规模 化 地 处 理 CSV 文件 。 
为 了 处 理 多 个 CSV 文件 ， 首 先 需要 创建 多 个 CSV 文件 。 下 面 的 示例 中 创建 了 3 个 CSV X 
件 ,但 是 请 记 住 ， 这 里 介绍 的 技术 可 以 扩展 为 处 理 计 算 机 允许 的 任意 多 的 文件 , 多 到 几 百 
M, EFEZ! 
。 第 一 个 CSV 文件 

(D 打开 一 个 电子 表格 程序 。 

(2) 加 入 图 2-12 所 示 的 数据 。 
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(3) 将 文件 保存 为 sales_january_2014.csv。 





eoo sales january 2014.csv x, 

































































































(Ae (der LA um Ar eer TES E 
ER mcr o = = fx\ Customer ID - : z 
ustomer ID | Customer Name Invoice Number Sale Amount Purchase Date 

B 1234 John Smith 100-0002 $1,200.00 1/1/14 

5 2345 Mary Harrison 100-0003 $1,425.00 1/6/14 

| 3456 Lucy Gomez 100-0004 $1,390.00 1/11/14 

B 4567 Rupert Jones 100-0005 $1,257.00 1/18/14 

加 5678 Jenny Walters 100-0006 $1,725.00 1/24/14 

Al 6789 Samantha Donaldson 100-0007 $1,995.00 1/31/14 

















Bal 
TRE sales January 2014 2v JF SSS 
[Normal View. | Ready Sum=0 -—] | 























图 2-12; 第 一 个 CSV 文件 : sales_january_2014.csv 


。 第 二 个 CSV 文件 
(1) 打开 一 个 电子 表格 程序 。 
(2) 加 入 图 2-13 所 示 的 数据 。 
(3) 将 文件 保存 为 sales_february_2014.csv。 

















eoo sales february 2014.csv F4 

































































I c I D I E 

Customer Name Invoice Number Sale Amount Purchase Date 
2| 9876 Daniel Farber 100-0008 $1,115.00 2/2/14 
H 8765 Laney Stone 100-0009 $1,367.00 2/8/14 
a| 7654 Roger Lipney 100-0010 $2,135.00 2/15/15 
A 6543 Thomas Haines 100-0011 $1,346.00 2/17/14 | 
图 5432 Anushka Vaz 100-0012 $1,560.00 2/21/14 
B 4321 Harriet Cooper 100-0013 $1,852.00 2/25/14 

















is a 























。 第 三 个 CSV 文件 
(1) 打开 一 个 电子 表格 程序 。 
(2) 加 入 图 2-14 所 示 的 数据 。 
(3) 将 文件 保存 为 sales_march_2014.csv。 



















Alem Number Format 
BB ster, Bowen text> [Genera : Bu. [Noma — 
iss] iC 


| 31S) e (oi Merve ”图 时 2 [S81 e) poete — [8d insert e Format Themes Ad" 
E 





T 
IB: Eem [caras | 
(me (Oen (B 
A 
= mm B 


z 5 
3] Customer ID | Customer Name Invoice Number Sale Amount 














图 1234 John Smith 100-0014 $1,350.00 3/4/14 
is 8765 Tony Song 100-0015 $1,167.00 3/8/14 
4 2345 Mary Harrison 100-0016 $1,789.00 3/17/14 
图 6543 Rachel Paz 100-0017 $2,042.00 3/22/14 
s 3456 Lucy Gomez 100-0018 $1,511.00 3/28/14 

4321 Susan Wallace 100-0019 $2,280.00 3/30/14 




















B 2-14; 第 三 个 CSV 文件 : sales march 2014.csv 


文件 计数 与 文件 中 的 行列 计数 


下 面 先 从 一 些 简单 的 行列 计数 开始 。 行 列 计数 虽然 相当 基础 ， 但 却 是 熟悉 新 数据 集 的 好 方 
式 。 尽 管 有 些 时 候 你 知道 要 处 理 的 输入 文件 中 的 内 容 ， 但 在 多 数 情况 下 ， 文 件 是 别人 发 送 
给 你 的 ， 你 不 会 立即 知道 是 哪些 内 容 。 这 时 ， 计 算 一 下 要 处 理 的 文件 数量 以 及 每 个 文件 中 





行 与 列 的 数量 ,会 对 你 有 所 帮助 。 























要 处 理 前 一 市 中 创建 的 3 个 CSV 文件， 在 文本 编辑 嚣 中 输入 下 列 代码 ， 然 后 将 文件 保存 





为 8csv_reader_counts_for_multiple_files.py : 


#!/usr/bin/env python3 

import csv 

import glob 

import os 

import sys 

input_path = sys.argv[1] 

file_counter = 0 

for input file in glob.glob(os.path.join(input path,'sales *')): 
9 row counter - 1 

10 with open(input file, 'r', newline='') as csv in file: 
11 filereader = csv.reader(csv in file) 

12 header = next(filereader, None) 

13 for row in filereader: 

14 row counter += 1 
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15 print('{0!s}: \t{1:d} rows \t{2:d} columns' . format(V 
16 os.path.basename(input file), row counter, len(header))) 
17 file counter += 1 

18 print('Number of files: {0:d}'.format(file_counter)) 


第 3-4 行 代码 导入 Python 内 置 的 glob 和 os 模块 ， 以 使 我 们 可 以 使 用 它们 提供 的 函数 列 出 
和 解析 你 要 处 理 的 文件 路 径 名 。glob 模块 可 以 定位 匹配 于 某 个 特定 模式 的 所 有 路 径 名 。 模 
式 中 可 以 包含 Unixshell 风格 的 通配符 ， 比 如 *。 在 上 面 这 个 具体 示例 中 ， 要 搜索 的 模式 是 
'sales_*'。 这 个 模式 表示 要 搜索 所 有 文件 名 以 sales- 开头 并 且 下 划 线 后 面 可 以 是 任意 字 
符 的 文件 。 因 为 你 创建 了 3 个 输入 文件 ， 所 以 应 该 知道 使 用 这 段 代码 可 以 识别 出 这 3 个 文 
件 ， 它 们 的 文件 名 都 是 以 sales_ 开头 的 ， 下 划 线 后 面 是 不 同 的 月 份 。 


以 后 你 可 能 会 想 找 出 一 个 文件 夹 下 面 的 所 有 CSV 文件 ， 而 不 是 以 sales_ 开头 的 文件 。 如 果 
这 样 ， 那 么 你 可 以 简单 地 将 脚本 中 的 模式 从 'sales_*' 改变 为 '*.csv'。 因 为 '.csv' 是 所 
^H CSV 文件 名 末尾 的 模式 ， 这 样 做 可 以 有 效 地 找 出 所 有 CSV 文件 。 


os 模块 包含 了 用 于 解析 路 径 名 的 函数 。 例 如 ，os.path.basename(path) 返回 path 的 基本 
文件 名 。 即 ， 如 果 path Æ C:\Users\Clinton\Desktop\my_input_file.csv, JBA os.path. 
basename(path) 返回 my. input file.csv, 


第 8 行 代码 是 将 数据 处 理 扩展 到 多 个 文件 中 的 关键 语句 。 此 行 代码 创建 了 一 个 for 循环 ， 
在 一 个 输入 文件 集合 中 友 代 ， 并 使 用 glob 模块 和 os 模块 中 的 函数 创建 了 一 个 输入 文件 列 
表 以 供 处 理 。 这 行 代 码 比较 复杂 ， 所 以 需要 仔细 地 分 析 一 下 。os 模块 中 的 os. path. join() 
国 数 将 国 数 圆 括号 中 的 两 部 分 连接 在 一 起 。input_path 是 包含 输入 文件 的 文件 夹 的 路 径 ， 
'sales *' 代表 任何 以 模式 'sales_' 开头 的 文件 名 。 

glob 模块 中 的 glob.glob() 函数 将 'sales_*' HAYS (*) 转换 为 实际 的 文件 名 。 在 这 个 
示例 中 ，glob.glob() 函数 和 os.path.join() 国 数 创建 了 一 个 包含 3 个 输入 文件 的 列表 : 

['C:\Users\Clinton\Desktop\sales_january_2014.csv', 


'C:\Users\Clinton\Desktop\sales_february_2014.csv', 
'C:\Users\Clinton\Desktop\sales_march_2014.csv'] 


然后 ， 这 行 开 头 的 for 循环 语句 对 于 列表 中 每 个 输入 文件 执行 下 面 缩 进 的 各 行 代码 。 


第 15 行 代码 是 一 个 print 语句 ， 打 印 出 每 个 输入 文件 的 文件 名 、 文 件 中 的 行 数 、 文 件 中 
的 列 数 。print 语句 中 的 制 表 符 \t 不 是 必需 的 ， 但 是 在 各 列 之 间 放 上 一 个 制 表 符 可 以 对 章 
这 3 列 。 这 行 代码 使 用 {} 占 位 符 将 3 个 值 传 入 print 语句 。 对 于 第 一 个 值 ， 使 用 os. path. 
basename() 国 数 从 完整 路 径 名 中 抽取 出 基本 文件 名 。 对 于 第 二 个 值 ， 使 用 row counter 变 
量 来 计算 每 个 输入 文件 中 的 总 行 数 。 最 后 ， 对 于 第 三 个 值 ， 使 用 内 置 的 Ven 函数 计算 出 列 
表 变 量 header 中 的 值 的 数量 ， 这 个 列表 变量 中 包含 了 每 个 输入 文件 的 列 标题 列表 。 我 们 使 
用 这 个 值 作为 每 个 输入 文件 中 的 列 数 。 最 后 ， 在 第 15 行 代 码 打印 了 每 个 文件 的 信息 之 后 ， 
第 17 行 代码 使 用 file counter 变量 中 的 值 显示 出 脚本 处 理 的 文件 的 数量 。 


要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 ; 
python 8csv reader counts for multiple files.py "C:\Users\Clinton\Desktop" 


请 注意 在 命令 行 中 ， 脚 本 名 称 后 面 是 一 个 文件 夹 路 径 。 在 前 面 的 示例 中 ， 这 个 位 置 都 是 输 






























































































































































74 | 第 2 章 


入 文件 名 。 在 这 个 示例 中 ， 你 要 处 理 多 个 文件 ， 所 以 必须 使 用 包含 所 有 输入 文件 的 文件 夹 。 
你 可 以 看 到 3 个 输入 文件 的 文件 名 和 每 个 文件 中 的 行 数 与 列 数 被 打印 到 屏幕 上 。 在 关于 3 
个 文件 的 信息 行 下 面 ， 最 后 的 print 语句 显示 了 之 前 处 理 过 的 输入 文件 总 数 。 显 示 信 息 如 
图 2-15 所 示 : 
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Corporation 


march_2014 
of files: 


Clinton\Desktop> 














图 2-15: Python 脚本 输出 : 3 个 CSV 文件 中 的 行 数 与 列 数 


输出 结果 显示 脚本 处 理 了 3 个 文件 ， 每 个 文件 都 有 7 行 和 5 列 。 


这 个 示例 演示 了 如 何 读 取 多 个 CSV 文件 并 将 每 个 文件 的 基本 信息 打印 到 屏幕 上 。 在 你 不 
熟悉 要 处 理 的 文件 时 ， 将 要 处 理 文件 的 基本 信息 打印 出 来 是 非常 有 用 的 。 知 道 了 输入 文件 
的 数量 和 每 个 文件 中 行 与 列 的 数量 ， 你 就 对 数据 处 理 的 工作 量 以 及 文件 内 容 的 一 致 性 有 了 
一 个 大 致 的 概念 。 


2.7 ”从 多 个 文件 中 连接 数据 


对 于 包含 相似 数据 的 多 个 文件 ， 你 经 常 希望 将 其 中 的 数据 连接 起 来 ， 以 使 所 有 数据 都 在 一 
个 文件 中 。 以 前 你 完成 这 种 工作 的 方式 可 能 是 : 打开 每 个 文件 ， 将 每 个 工作 表 中 的 数据 复 
制 粘贴 到 一 个 单独 的 工作 表 中 。 这 种 手动 处 理 方 式 不 但 浪费 时 间 ， 还 容易 出 错 。 而 且 ， 在 
有 些 情 况 下 ， 因 为 需要 合并 的 文件 数量 和 文件 大 小 的 原因 ， 手 动 处 理 根本 不 可 能 完成 。 
知道 了 手动 连接 数据 的 局 限 性 之 后 ， 接 下 来 看 一 下 如 何 通过 Python 完成 这 个 任务 。 这 里 将 
会 使 用 本 节 开 头 创 建 的 3 个 CSV 文件 来 演示 如 何 从 多 个 文件 中 连接 数据 。 
1. 基础 Python 
要 使 用 基础 Python 将 多 个 输入 文件 中 的 数据 垂直 连接 成 一 个 输出 文件 ， 在 文本 编辑 器 中 输 
入 下 列 代码 ， 然 后 将 文件 保存 为 9csv_reader_concat_rows_from_multiple_files.py: 

1 #!/usr/bin/env python3 

2 import csv 

3 import glob 


4 import os 
5 import sys 
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6 input path = sys.argv[1] 

7 output file - sys.argv[2] 

8 

9 first file - True 

10 for input file in glob.glob(os.path.join(input path,'sales *')): 
11 print(os.path.basename(input file)) 


12 with open(input file, 'r', newline='') as csv in file: 
13 with open(output file, 'a', newline='') as csv out file: 
14 filereader = csv.reader(csv in file) 

15 filewriter = csv.writer(csv out file) 

16 if first file: 

17 for row in filereader: 

18 filewriter.writerow(row) 

19 first file = False 

20 else: 

21 header = next(filereader, None) 

22 for row in filereader: 

23 filewriter.writerow(row) 

















第 13 行 代码 是 一 个 with 语句 ， 用 来 打开 输出 文件 。 在 前 面 介绍 写 入 输出 文件 的 示例 中 
open 国 数 中 的 字符 串 是 'w' ， 表 示 以 可 写 的 方式 打开 输出 文件 。 


在 这 个 示例 中 ， 使 用 'a' 代替 w 以 追加 的 方式 打开 输出 文件 ， 以 使 每 个 输入 文件 中 的 数 
据 可 以 追加 (也 就 是 添加 ) 到 输出 文件 中 。 如 果 使 用 可 写 方式 ， 从 一 个 输入 文件 中 输出 的 
数据 会 覆盖 掉 前 一 个 输入 文件 中 的 数据 ， 最 后 的 输出 文件 会 只 包含 最 后 处 理 的 那个 输入 文 
件 中 的 数据 。 

从 第 16 行 代码 开始 的 if-else 语句 根据 第 9 行 代码 中 创建 的 first_file 变量 来 区 分 当前 
文件 是 第 一 个 输入 文件 ， 还 是 其 后 的 输入 文件 。 在 输入 文件 中 做 这 个 区 分 的 目的 是 将 标题 
行 仅 写 人 输出 文件 一 次 。itf 代码 块 处 理 第 一 个 输入 文件 ， 将 包括 标题 行 的 所 有 行 写 人 输出 
文件 。else 代码 块 处 理 所 有 余下 的 输入 文件 ， 使 用 next 方法 将 每 个 文件 中 的 标题 行 赋 给 一 
个 变量 (这样 就 可 以 在 后 面 的 处 理 过 程 中 跳 过 标题 行 )， 然 后 将 其 余数 据 行 写 入 输出 文件 。 
要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 ， 


python 9csv reader concat rows from multiple files.py "C:\Users\Clinton\Desktop"\ 
output filesM9output.csv 


你 可 以 看 到 输入 文件 的 文件 名 被 打印 到 屏幕 上 ， 如 图 2-16 所 示 。 


























































































































































































































2-16: Python 脚本 输出 : 连接 成 输出 文件 的 文件 名 
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屏幕 上 的 输出 展示 了 处 理 过 的 文件 的 文件 名 。 此 外 ， 脚 本 还 将 3 个 输入 文件 中 的 数据 连接 
成 了 一 个 单独 的 输出 文件 9outputcsv， 位 于 桌面 上 的 output. files 文件 夹 中 。 图 2-17 显示 
了 文件 中 的 内 容 。 




















cnn “网 
sd Neu ^a 
fee) Far" Set 
E F G H 

1 [Customer ID |Customer Name Invoice Number Sale Amount Purchase Date 
2 9876 Daniel Farber 100-0008 $1,115.00 2/2/2014 
3 8765 Laney Stone 100-0009 $1,367.00 2/8/2014 
4 7654 Roger Lipney 100-0010 $2,135.00 2/15/2014 
5 6543 Thomas Haines 100-0011 $1,346.00 2/17/2014 
6 5432 Anushka Vaz 100-0012 $1,560.00 2/21/2014 
7 4321 Harriet Cooper 100-0013 $1,852.00 2/25/2014 
8 1234 John Smith 100-0002 $1,200.00 1/1/2014 
9 2345 Mary Harrison 100-0003 $1,425.00 1/6/2014 
10 3456 Lucy Gomez 100-0004 $1,390.00 1/11/2014 
11 4567 Rupert Jones 100-0005 $1,257.00 1/18/2014 
12 5678 Jenny Walters 100-0006 $1,725.00 1/24/2014 
13 6789 Samantha Donaldson 100-0007 $1,995.00 1/31/2014 
14 1234 John Smith 100-0014 $1,350.00 3/4/2014 
15 8765 Tony Song 100-0015 $1,167.00 3/8/2014 
16 2345 Mary Harrison 100-0016 $1,789.00 3/17/2014 
17 6543 Rachel Paz 100-0017 $2,042.00 3/22/2014 
18 3456 Lucy Gomez 100-0018 $1,511.00 3/28/2014 
19 4321 Susan Wallace 100-0019 $2,280.00 3/30/2014 
roneat output | ®© aT 














& 2-17: 输出 CSV 文件 ， 连 接 了 来 自 于 多 个 输入 文件 的 行 


图 中 显示 ， 脚 本 成 功 地 连接 了 来 自 于 3 个 输入 文件 的 数据 。 输 出 文件 中 包含 一 个 标题 行 和 
3 个 输入 文件 中 所 有 的 数据 行 。 


在 解释 代码 时 ， 前 面 提 到 了 在 第 13 行 代码 中 为 什么 要 使 用 'a' 〈 追 加 模式 )， 而 不 是 'w 
(可 写 模式 )， 还 提 到 了 为 什么 要 区 分 第 一 个 输入 文件 和 其 后 的 输入 文件 。 要 实际 验证 一 下 
的 话 ， 你 可 以 将 'a' 改 成 ww ， 然 后 保存 脚本 ， 对 3 个 输入 文件 重新 执行 一 下 ， 看 看 输出 
文件 有 什么 变化 。 同 样 ， 你 也 可 以 删除 if-else 语句 ， 将 所 有 输入 文件 中 的 所 有 行 都 打印 
出 来 ， 看 看 输出 会 如 何 改变 。 


还 有 一 点 需要 注意 ， 这 个 示例 中 的 模式 'sales_*' 相对 来 说 是 比较 特殊 的 ， 也 就 是 说 在 你 
的 桌面 上 除了 3 个 输入 文件 之 外 ， 不 太 可 能 还 有 文件 名 以 sales_ 开 头 的 文件 。 其 他 情况 
下 ， 你 更 可 能 使 用 一 个 不 那么 特殊 的 模式 ， 比 如 '*.csv' ， 来 搜索 所 有 CSV 文件 。 在 这 种 
情况 下 ， 你 不 应 该 在 包含 所 有 输入 文件 的 文件 夹 内 创建 输出 文件 。 不 应 该 这 样 做 的 原因 就 
是 ， 你 在 打开 输出 文件 的 同时 还 在 处 理 输入 文件 。 这 样 ， 如 果 你 的 模式 是 '*.csv' ， 输 出 
文件 也 是 个 CSV 文件 ， 那 么 脚本 就 会 像 处 理 输 入 文件 一 样 试图 处 理 输出 文件 ， 这 就 会 导 
致 问 题 和 错误 。 这 种 可 能 性 就 是 最 好 在 另 一 个 文件 夹 中 处 理 输出 文件 的 原因 ， 就 像 在 这 个 
示例 中 所 做 的 一 样 。 


2. pandas 
pandas 可 以 直接 从 多 个 文件 中 连接 数据 。 基 本 过 程 就 是 将 每 个 输入 文件 读 取 到 pandas 数据 
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框 中 ， 将 所 有 数据 框 追加 到 一 个 数据 框 列表 ， 然 后 使 用 concat 函数 将 所 有 数据 框 连接 成 一 
个 数据 框 。concat 函数 可 以 使 用 axis 参数 来 设置 连接 数据 框 的 方式 ，axis=0 表示 从 头 到 
Fé EIER, axis=1 表示 并 排 地 平行 堆 县 。 

要 使 用 pandas 将 多 个 输入 文件 中 的 数据 垂直 连接 成 一 个 输出 文件 ， 在 文本 编辑 器 中 输入 下 
列 代码 ， 然 后 将 文件 保存 为 pandas_concat_rows_from_multiple_files.py: 






































it! /usr/bin/env python3 
import pandas as pd 
import glob 
import os 
import sys 
input path = sys.argv[1] 
output file - sys.argv[2] 
all files - glob.glob(os.path.join(input path,'sales *')) 
all data frames - [] 
for file in all files: 
data frame - pd.read csv(file, index col-None) 
all data frames.append(data frame) 
data frame concat - pd.concat(all data frames, axis-0, ignore index-True) 
data frame concat.to csv(output file, index - False) 


这 段 代码 垂直 堆 受 数据 框 。 如 果 你 需要 平行 连接 数据 ， 那 么 就 在 concat 函数 中 设置 
axis=1。 除 了 数据 框 ，pandas 中 还 有 一 个 数据 容器 ， 称 为 序列 。 你 可 以 使 用 同样 的 语法 去 
连接 序列 ， 只 是 要 将 连接 的 对 象 由 数据 框 改 为 序列 。 

有 了 时候 ， 除 了 简单 地 垂直 或 平行 连接 数据 ， 你 还 需要 基于 数据 集中 的 关键 字 列 的 值 来 连接 数 
据 集 。pandas 提供 了 类 似 SQL join 操作 的 merge 函数 。 如 果 你 很 熟悉 SQL join, MARIEK 
容易 理解 merge 函数 的 语法 : pd.merge(DataFrame1, DataFrame2, on='key', how='inner'), 
Python 的 另 一 个 内 置 模块 NumPy 也 提供 了 若干 国 数 来 垂直 或 平行 连接 数据 。 通 常 是 将 
NumPy 导入 为 np。 然 后 ， 要 和 慌 直 连 接 数 据 ， 你 可 以 使 用 np.concatenate([array1, array2], 
axis=0), np.vstack((array1, array2)) 或 np.r_[array1，array2]。 同 样 ， 要 平行 连接 数据 ， 
你 可 以 使 用 np.concatenate([array1, array2], axis=1), np.hstack((array1, array2)) 或 
np.c_[array1, array2], 

要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 : 


python pandas_concat_rows_from_multiple_files.py "C:\Users\Clinton\Desktop"\ 
output_files\pandas_output.csv 


你 可 以 打开 输出 文件 pandas output.csv 查看 一 下 结果 。 


2.8 计算 每 个 文件 中 值 的 总 和 与 均值 

有 些 时 优 ， 当 你 有 多 个 输入 文件 时 ， 需 要 对 每 个 输入 文件 计算 一 些 统 计量 。 本 节 的 示例 使 
用 之 前 创建 的 3 个 CSV 文件 来 展示 如 何 计算 每 个 输入 文件 中 某 一 列 的 总 计 和 均值 。 

1. 基础 Python 

要 使 用 基础 Python 为 多 个 文件 计算 某 列 的 总 计 和 均值 ， 在 文本 编辑 器 中 输入 下 列 代码 ， 然 
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后 将 文件 保存 为 10csv_reader_sum_average_from_multiple_files : 





#!/usr/bin/env python3 

import csv 

import glob 

import os 

import sys 

input path = sys.argv[1] 

output file - sys.argv[2] 

output header list - ['file name', 'total sales', 'average sales'] 
csv out file = open(output file, 'a', newline='') 

10 filewriter = csv.writer(csv out file) 

11 filewriter.writerow(output header list) 

12 for input file in glob.glob(os.path.join(input path,'sales *')): 


ONAN 3» 0) hJ9 HÀ 


Ko) 


13 with open(input_file, 'r', newline='') as csv_in_file: 

14 filereader = csv.reader(csv_in_file) 

15 output_list = [ ] 

16 output_list.append(os.path.basename(input_file)) 

17 header = next(filereader) 

18 total_sales = 0.0 

19 number_of_sales = 0.0 

20 for row in filereader: 

21 sale amount - row[3] 

22 total sales += float(str(sale_amount).strip('$').replace(',','')) 
23 number of sales += 1 

24 average sales = '(0:.2f)'.format(total sales / number of sales) 
25 output list.append(total sales) 

26 output list.append(average sales) 

27 filewriter.writerow(output list) 


28 csv out file.close() 


第 8 行 代码 创建 了 一 个 输出 文件 的 列 标题 列表 。 第 10 行 代码 创建 了 filewri 
11 行 代码 将 标题 行 写 入 输出 文件 。 











ter 对 象 ， 第 





第 15 行 代码 创建 了 一 个 空 列表 ， 保 存 要 写 入 输出 文件 中 的 每 行 输出 。 因 为 要 为 每 个 输入 
文件 计算 总 计 和 均值 ， 所 以 第 16 行 代码 将 输入 文件 的 文件 名 追加 到 output. list 中 。 





第 17 行 代码 使 用 next 函数 除去 每 个 输入 文件 的 标题 行 。 第 18 行 代码 创建 了 一 个 变量 





total sales 并 将 其 初始 化 为 0。 第 20 行 代码 是 一 个 for 循环 ， 在 每 个 输入 文件 的 数据 行 








BOAT. 





第 21 行 代码 使 用 列表 索引 取出 销售 额 这 列 中 的 值 ， 并 赋 给 变量 sale amount, 4$ 22 行 代 
码 使 用 str 函数 确保 sale amount 中 的 值 是 一 个 字符 串 ， 然 后 使 用 strip 函数 和 replace FR 

















数 除去 值 中 的 美元 符号 和 总 号 。 此 后 使 用 float 函数 将 这 个 值 转换 为 浮 点 数 ， 
加 到 total_sales 中 的 值 上 。 第 23 行 代码 给 number_of_sales 中 的 值 加 1。 























并 将 这 个 值 


第 24 行 代码 用 total_sales 中 的 值 除 以 number_of_sales 中 的 值 ， 为 输入 文件 计算 出 平 


均 销 售 额 ， 然 后 将 这 个 数值 格式 化 成 具有 两 位 小 数 的 数值 ， 并 转换 成 字符 中 


average sales, 











lh ， 赋 给 变量 


第 25 行 代码 将 总 销售 额 作为 第 二 个 值 添加 到 output list 中 。 列 表 中 的 第 一 个 值 是 输入 文 
件 的 名 字 。 这 个 值 在 第 16 行 代码 中 被 添加 到 列表 中 。 第 26 行 代码 将 平均 销售 额 作为 第 三 
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直 添 加 到 output. list 中 。 第 27 行 代 码 将 output. list 中 的 值 写 入 输出 文件 。 

脚本 对 每 个 输入 文件 都 运行 这 些 代 码 ， 所 以 输出 文件 中 会 包含 对 应 于 每 个 输入 文件 的 一 列 
文件 名 、 一 列 总 销售 额 和 一 列 平均 销售 额 。 

要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 : 


python 10csv reader sum average from multiple files.py V 
"C:\Users\Clinton\Desktop" output_files\100utput.csv 


你 可 以 打开 输出 文件 10output.csv 查看 一 下 结果 。 
2. pandas 
pandas 提供 了 可 以 用 来 计算 行 和 列 统计 量 的 摘要 统计 函数 ， 比 如 sum 和 mean。 下 面 的 代码 
演示 了 如 何 对 于 多 个 文件 中 的 某 一 列 计算 这 两 个 统计 量 (总 计 和 均值 )， 并 将 每 个 输入 文 
件 的 计算 结果 写 入 输出 文件 。 

要 使 用 pandas 计算 这 两 个 列 统 计量 ， 在 文本 编辑 器 中 输入 下 列 代码 ， 并 将 文件 保存 为 


pandas sum, average from multiple files.py: 













































































it! /usr/bin/env python3 
import pandas as pd 
import glob 
import os 
import sys 
input path = sys.argv[1] 
output file - sys.argv[2] 
all files - glob.glob(os.path.join(input path,'sales *')) 
all data frames - [] 
for input file in all files: 
data frame = pd.read csv(input file, index col-None) 


total cost = pd.DataFrame([float(str(value).strip('$').replace(',','')) \ 
for value in data frame.loc[:, 'Sale Amount']]).sum() 


average cost = pd.DataFrame([float(str(value).strip('$').replace(',','')) \ 
for value in data_frame.loc[:, 'Sale Amount']]).mean() 
data = {'file_name': os.path.basename(input_file), 
'total sales': total sales, 
'average sales': average sales) 


all data frames.append(pd.DataFrame(data, V 

columns-['file name', 'total sales', 'average sales'])) 
data frames concat - pd.concat(all data frames, axis-0, ignore index-True) 
data frames concat.to csv(output file, index - False) 


使 用 列表 生成 式 将 销售 额 这 一 列 中 带 美元 符号 的 字符 串 转 换 为 浮 点 数 ， 然 后 使 用 数据 框 函 
数 将 这 个 对 象 转换 为 一 个 DataFrame， 以 便 可 以 使 用 这 两 个 函数 计算 列 的 总 计 和 均值 。 
因为 输出 文件 中 的 每 行 应 该 包含 输入 文件 名 ， 以 及 文件 中 销售 额 的 总 计 和 均值 ， 所 以 可 以 
将 这 3 种 数据 组 合成 一 个 文本 框 ， 使 用 concat 函数 将 这 些 数据 框 连接 成 为 一 个 数据 框 ， 然 
后 将 这 个 数据 框 写 入 输出 文件 。 


























要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 : 


python pandas sum average from multiple files.py "C:\Users\Clinton\Desktop"\ 
output filesMpandas output.csv 


你 可 以 打开 输出 文件 pandas. output.csv 查看 一 下 结果 。 


本 章 介绍 了 很 多 基础 知识 ， 包 括 读 取 和 分 析 CSV 文件 、 在 CSV 文件 中 浏览 行 与 列 、 处 理 
多 个 CSV 文件 和 为 多 个 CSV 文件 计算 统计 量 的 方法 。 如 果 你 一 直 跟 随 本 章 内 容 练习 示例 
代码 ， 应 该 已 经 完成 了 12 个 Python 脚本 。 


你 练习 本 章 中 示例 代码 的 最 大 收获 是 ， 它 们 是 浏览 和 处 理 文件 的 基础 模块 。 黎 握 了 本 章 中 
的 示例 代码 后 ， 你 就 可 以 继续 学 习 如 何 处 理 Excel 文件 了 ， 这 就 是 下 一 章 的 主题 。 


2.9 ”本章 练习 


(1) 对 根据 具体 条 件 、 集 合 和 正则 表达 式 来 得 选 行 数 据 的 一 个 脚本 进行 修改 ， 将 与 示例 代码 
中 不 同 的 一 组 数据 打印 出 来 并 写 入 输出 文件 。 

(D 对 根据 索引 值 或 列 标题 来 筛选 列 数据 的 一 个 脚本 进行 修改 ， 将 与 示例 代码 中 不 同 的 一 组 
数据 打印 出 来 并 写 入 输出 文件 。 

(3) 在 一 个 文件 夹 中 创建 一 组 新 的 CSV 输入 文件 ， 创 建 另外 一 个 输出 文件 夹 ， 使 用 处 理 多 
个 文件 的 一 个 脚本 来 处 理 这 些 新 的 输入 文件 ， 并 将 结果 写 入 输出 文件 夹 。 
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Microsoft Excel 几乎 无 处 不 在 ， 使 用 Excel 既 可 以 保存 客户 、 库 存 和 雇员 数据 ， 还 可 以 跟 
踪 运 营 、 销 售 和 财务 活动 。 人 们 在 商业 活动 中 使 用 Excel 的 方式 五 伦 八 门 ， 难 以 计数 。 因 
为 Excel 是 商业 活动 中 不 可 或 缺 的 工具 ， 所 以 知道 如 何 使 用 Python 处 理 Excel 数据 可 以 使 
你 将 Python 加 入 到 数据 处 理工 作 流 中 ， 进 而 从 其 他 人 那里 接收 数据 ， 并 以 他 们 习惯 接受 的 
方式 分 享 数据 处 理 结果 。 

与 Python 的 csv 模块 不 同 ，Python 中 没有 处 理 Excel 文件 (就 是 带 有 .xls 和 xlsx 扩展 名 
的 文件 ) 的 标准 模块 。 要 完成 本 章 中 的 示例 ， 你 需要 xLrd 和 xlwt 扩展 包 。xlrd 和 xlwt 97 
展 包 使 Python 可 以 在 任何 操作 系统 上 处 理 Excel 文件 ， 而 且 对 Excel 日 期 型 数据 的 支持 非 
第 好 。 如 果 你 安装 了 Anaconda Python， 那 么 就 已 经 有 了 这 两 个 扩展 包 ， 因 为 它们 是 与 安装 
程序 捆绑 在 一 起 的 。 如 果 你 是 从 Python.org 网 站 安装 的 Python， 那 么 还 需要 按照 附录 A 中 
的 指示 下 载 并 安装 这 两 个 扩展 包 。 

简单 解释 一 下 术语 : 当 提 到 “Excel 文件 ”时 ， 和 “Excel THR” ée, Excel 工作 
短 包 含 一 个 或 多 个 Excel TER. ERER, AZEEM A P TER XWA, 
并 将 工作 短 中 的 个 别 工 作 表 直接 称 为 工作 表 。 


和 第 2 章 中 处 理 CSV 文件 一 样 ， 本 章 先 给 出 使 用 基础 Python 完成 的 示例 ， 这 样 你 可 以 清 
楚 数 据 处 理 的 每 个 逻辑 步骤 ， 然 后 给 出 使 用 pandas 完成 的 示例 ， 这 样 你 可 以 获得 一 个 〈 通 
常情 况 下 ) 更 短小 精 悍 的 示例 (尽管 有 一 点 抽象 )， 你 可 以 对 这 个 示例 进行 复制 和 修改 ， 
然后 用 在 自己 的 工作 中 。 


要 开始 本 章 示例 ， 需 要 先 创建 一 个 Excel TER. 


(1) 打开 Microsoft Excel, 
(2) 4E E fe f B d Hn 3 个 独立 的 工作 表 ， 并 分 别 命名 为 january_2013、february_2013 和 
march_2013。 然 后 分 别 添加 数据 ， 如 图 3-1、 图 3-2 和 图 3-3 所 示 。 
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(3) 将 工作 短 保 存 为 sales_2013.xlsx。 





Bue e-$-- les 201 [Protected Vieni- Excel 





PAGELAYOUT FORMULAS DATA REVEW VEW 
aL f 
A B G 
Customer ID |Customer Name Invoice Number 
1234 John Smith 100-0002 
2345 Mary Harrison 100-0003 
3456 Lucy Gomez 100-0004 
4567 Rupert Jones 100-0005 
5678 Jenny Walters 100-0006 


1 
2 
3 
4 
5 
6 
7 
8 
9 
10 
11 
12 
13 


6789 Samantha Donaldson 100-0007 


Januar ry 2013 | february 2013 | march 2013 a 





zm 3x 
Cinton Brownley - FA 


D E 
Sale Amount Purchase Date 
$1,200.00 1/1/2013 
$1,425.00 1/6/2013 
$1,390.00 1/11/2013 
$1,257.00 1/18/2013 
$1,725.00 1/24/2013 
$1,995.00 1/31/2013 








图 3-1; 工作 表 1: january 2013 





BH e-$-- les 201 [Protected Vieni- eh 





January 2013 | february 2013 | march 2013 





EG PAGELAYOUT FORMULAS DATA REVEW VEw 
A B C D E j 

1 (Customer ID [Customer Name Invoice Number Sale Amount Purchase Date 
2 9876 Daniel Farber 100-0008 $1,115.00 2/2/2013 
3 8765 Laney Stone 100-0009 $1,367.00 2/8/2013 
4 7654 Roger Lipney 100-0010 $2,135.00 2/15/2013 
5 6543 Thomas Haines 100-0011 $1,346.00 2/17/2013 
6 5432 Anushka Vaz 100-0012 $1,560.00 2/21/2013 
7 4321 Harriet Cooper 100-0013 $1,852.00 2/25/2013 
8 

9 

10 

11 

12 








3-2: 工作 表 2: february 2013 





Excel 文 件 


83 























— P» s nA 
D E 

1 |Customer ID |Customer Name Invoice Number Sale Amount Purchase Date 
2 1234 John Smith 100-0014 $1,350.00 3/4/2013 
3 8765 Tony Song 100-0015 $1,167.00 3/8/2013 
4 2345 Mary Harrison 100-0016 $1,789.00 3/17/2013 
5 6543 Rachel Paz 100-0017 $2,042.00 3/22/2013 
6 3456 Lucy Gomez 100-0018 $1,511.00 3/28/2013 
7 4321 Susan Wallace — 100-0019 $2,280.00 3/30/2013 
8 














3-3; 工作 表 3; march 2013 


3.1 内 省 Excel 工 作 短 


既然 我 们 已 经 有 了 一 个 包含 3 个 工作 表 的 Excel 工作 籍 ， 那 么 就 开始 学 习 如 何在 Python 中 
处 理 Excel 工作 得 吧 。 提 示 一 下 ， 本 章 中 要 使 用 xtrd 和 xtwt 扩展 包 ， 所 以 请 确认 你 已 经 
下 载 并 安装 了 这 些 扩 展 包 。 

你 可 能 已 经 知道 ，Excel 文件 与 CSV 文件 至 少 在 两 个 重要 方面 有 所 不 同 。 首 先 , 与 CSV 文 
件 不 同 ，Excel 文件 不 是 纯 文 本 文件 ， 所 以 你 不 能 在 文本 编辑 器 中 打开 它 并 查看 数据 。 为 
了 验证 这 一 点 ， 可 以 点 击 刚 才 创 建 的 Excel 工作 得 并 按 鼠 标 右键 ， 然 后 用 一 个 文本 编辑 器 
(比如 Notepad 或 者 TextWrangler) 打开 它 。 你 会 看 到 一 堆 乱 码 ， 而 不 是 正常 字符 。 


其 次 ， 与 CSV 文件 不 同 ， 一 个 Excel 工作 短 被 设计 成 包含 多 个 工作 表 ， 所 以 你 需要 知道 在 
不 用 手动 打开 工作 得 的 前 提 下 ， 如 何 通过 工作 簿 内 省 (也 就 是 内 部 检查 ) 获取 其 中 所 有 工 
作 表 的 信息 。 通 过 内 省 一 个 工作 短 ， 你 可 以 在 实际 开始 处 理工 作 簿 中 的 数据 之 前 ， 检 查 工 
作 表 的 数目 和 每 个 工作 表 中 的 数据 类 型 和 数据 量 。 
内 省 Excel 文件 有 助 于 确定 文件 中 的 数据 确实 是 你 需要 的 ， 并 对 数据 一 致 性 和 完整 性 做 一 
个 初步 检查 。 也 就 是 说 ， 弄 清楚 输入 文件 的 数量 ， 以 及 每 个 文件 中 的 行 数 和 列 数 ， 可 以 使 
你 对 数据 处 理工 作 的 工作 量 和 文件 内 容 的 一 致 性 有 个 大 致 的 概念 。 

在 知道 了 如 何 内 省 工作 竹中 的 工作 表 之 后 ， 下 面 开始 分 析 单 个 工作 表 ， 然 后 处 理 多 个 工作 
表 和 多 个 工作 短 。 
要 确定 工作 短 中 工作 表 的 数量 、 名 称 和 每 个 工作 表 中 行列 的 数量 ， 在 文本 编辑 器 中 输入 下 
列 代码 ， 然 后 将 文件 保存 为 lexcel_introspect_workbook.py: 
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#!/usr/bin/env python3 
import sys 
from xlrd import open workbook 
input file - sys.argv[1] 
workbook - open workbook(input file) 
print('Number of worksheets:', workbook.nsheets) 
for worksheet in workbook.sheets(): 
print("Worksheet name:", worksheet.name, "\tRows:",\ 
worksheet.nrows, "\tColumns:", worksheet.ncols) 


WOANKDUBRWNR 





图 3-4, El 3-5 和 图 3-6 分 别 展示 了 Anaconda Spyder, Notepad++ (Windows) 和 TextWrangler 
(macOS) 中 的 脚本 。 




















a] 区 rome moose worsoot pr" D | 
1#!/usr/bin/env Python3 
2import sys 
3from xlrd import open_workbook 








4 
5input file = sys.argv[1] 
6 


7workbook = open workbook(input file) 

8print('Number of worksheets:', workbook.nsheets) 

9for worksheet in workbook.sheets(): 

10  print("Worksheet name:", worksheet.name, "\tRows:", \ 
11 worksheet.nrows, "\tColumns:", worksheet.ncols) 


ax 





V1900 64 bit ( 














LC [Ty | Peer or | 
= Permissions mo End-oines tf Encoding: VIRG Line 4 Coline 4 Memory 31 X 








图 3-4; Anaconda Spyder 中 的 Python 脚本 1excel_introspect_workbook.py 








wie Num. m 0 HEN TESTIS SEC] 
—— E 

o DB e 2.8) 4h | S ees) | ES| 8 REI 3 | 9-0 CE 09 I [n 
[Er 
1 #!/usr/bin/env python3 
import sys 


from xlrd import open workbook 





input file = sys.argv[1] 


workbook = open workbook(input file) 
print('Number of worksheets:', workbook.nsheets) 
for worksheet in workbook.sheets(): 
print("Worksheet name:", worksheet.name, "\tRows:", \ 
worksheet.nrows, "\tColumns:", worksheet.ncols) 


ES 50 IO 0 EN 


Pe 











i J , 
Python file length:38 lines:ll — Ln:l Coll Sel:0]O UNIX UTF-8 INS 























& 3-5; Notepad++ (Windows) 中 的 Python 脚本 1excel introspect workbook.py 
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eoo 7j excel introspect. workbook.py 
Cac eS T, Ù File Path v : ~/Desktop/texcel_introspect_workbook.py 
= 4 3 texcelintrospect workbook.py $ (no symbol selected) $ 7B Hy 


¥#l/usr/bin/env python3 
import sys 
from xlrd import open_workbook 


workbook = open_workbook(input_file) 
print((Number of worksheets:', workbook.nsheets) 
for worksheet in workbook.sheets(): 
‘0 print("Worksheet name:", worksheet.name, "\tRows:", V 
“j. worksheet.nrows, "\tColumns:", worksheet.ncols) 


s input file = sys.argv[1] 


Bd Bach [UB lll "LimeiCoi1 [Python $| Unicode (UTF-8) | Unix (LF) $| af’ | Last saved: 10/11/15, 9:03:41 AM | © 318/337 11 














3-6: TextWrangler (macOS) 中 的 Python 脚本 1excel_introspect_workbook.py 


第 3 行 代码 导入 xLrd 模块 的 open_workbook 函数 来 读 取 和 分 析 Excel 文件 。 


第 7 行 代码 使 用 open_workbook 函数 打开 一 个 Excel 输入 文件 ， 并 赋 给 一 个 名 为 workbook 
的 对 象 。workbook 对 象 中 包含 了 工作 短 中 所 有 可 用 的 信息 ， 所 以 可 以 使 用 这 个 对 象 从 工作 
短 中 得 到 单独 的 工作 表 。 


第 8 行 代 码 打印 出 工作 短 中 工作 表 的 数量 。 


第 9 行 代 码 是 一 个 for 循环 语句 ， 在 工作 得 中 的 所 有 工作 表 之 间 和 迭代 。workbook 对 象 的 
sheets 方法 可 以 识别 出 工作 敌 中 所 有 的 工作 表 。 


第 10 行 代码 在 屏幕 上 打印 出 每 个 工作 表 的 名 称 和 每 个 工作 表 中 行 与 列 的 数量 。print 语句 
使 用 worksheet 对 象 的 nane 属性 来 确定 每 个 工作 表 的 名 称 。 同 样 ， 它 使 用 nrows 和 ncols 
属性 来 分 别 确定 每 个 工作 表 中 行 与 列 的 数量 。 


如 果 你 在 Spyder IDE 中 创建 了 这 个 文件 ， 按 下 列 步骤 运行 脚本 。 


(1) 在 IDE 左上 角 点 击 Run. 下 拉 菜 单 。 

(2) 464% “Configure”, 

(3) *4 Run Settings # A 1T JF Jr, i f£ “Command line options” & vt HE, YA Ja Mi A 
“sales_2013.xlsx” (参见 图 3-7) 。 

(4) Wize “Working directory” 是 你 保存 脚本 和 Excel 文件 的 目录 。 

(5) 点 击 Run, 


当 点 击 了 Run 按钮 (或 者 是 Run Settings 窗口 中 的 Run 按钮 ， 或 者 是 DE 左上 角 绿 色 的 


Run 按钮 ) 之 后 ， 你 会 看 到 输出 显示 在 IDE AP ANY Python 控制 台 窗 格 上 。 图 3-7 显示 了 
Run 下 拉 菜 单 、Run Setting 窗口 中 的 关键 设置 和 红 框 内 的 输出 。 





















































2import sys 
from xlrd import open workbook 


jinput file = sys.argv[1] 


workbook = open workbook(input file) 


jiprint( , Workbook.nsheets) 

for worksheet in workbook.sheets(): 
10 print( » Worksheet.name, »\ 
11 worksheet .nrows, , worksheet.ncols) 





























S 3-7: 在 Anaconda Spyder 中 设置 命令 行 参 数 








当然 ， 你 可 以 在 命令 行 窗口 或 终端 窗口 中 运行 脚本 。 要 完成 这 个 操作 ， 根 据 不 同 的 操作 系 


统 ， 使 用 如 下 命令 。 
。 Windows 操作 系统 


python 1excel introspect workbook.py sales 2013.xlsx 


* macOS 操作 系统 


chmod «x 1excel introspect workbook.py 
./1excel_introspect_workbook.py sales 2013.xlsx 


你 可 以 看 到 输出 被 打印 到 屏幕 上 ， 如 图 3-8 (Windows) 或 

















3-9 (macOS) 所 示 。 





E Command Prompt 


Microsoft Windows [Version 6.1.7601 
C:\Users\Clinton>cd Desktop 


Number of worksheets: 3 


ic: \Users\Clinton\Desktop> 


(c: \Users\Clinton\Desktop>python lexcel_introspect_workbook.py sales_2013.x1sx 


Worksheet name: january_2013 Rows: Columns: 
Worksheet name: february_2013 Rows: columns: 
Worksheet name: march_2013 Rows: Columns: 





Copyright (c) 2009 Microsoft Corporation. All rights reserved. 


5 
E 
E 











图 3-8: 命令 行 窗口 (Windows) 中 的 Python 脚本 输出 
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e 1. bash 


clinton-mba:~ clinton$ cd Desktop/ 


clinton-mba:Desktop clinton$ chmod +x 1excel. introspect workbook.py 
clinton-mba:Desktop clinton$ ./1excel. introspect workbook.py sales. 2013.xlsx 


Number of worksheets: 3 
Worksheet name: january. 2013 
Worksheet name: february. 2013 
Worksheet name: march_2013 
clinton-mba:Desktop clinton$ ff 


Rows: 7 
Rows: 7 
Rows: 7 





Columns: 5 
Columns: 5 
Columns: 5 








图 3-9. 终端 窗口 (macOS) 中 的 Python 脚本 输出 


第 一 行 输出 表示 Excel 输入 文件 sale_2013.xlsx 中 包 








包含 7 行 (包括 标题 行 ) 和 5 列 。 


掌握 了 如 何 使 用 Python 来 内 省 Excel 工作 短 之 后 ， 就 可 以 开 
在 此 之 后 ， 本 章 会 将 这 种 方法 扩展 为 处 理 多 个 工作 表 和 多 个 工作 秒 。 





析 单 个 工作 表 了 。 


3.2 ”处 理 单个 工作 表 














尽管 Excel 工作 籍 可 以 包含 多 个 工作 表 ， 有 些 时 候 你 也 只 是 需要 一 














工作 表 分 别名 为 january_2013, february_2013 和 march, 2013, 


含 3 个 工作 表 。 下 面 三 行 说 明了 3 个 
它们 还 说 明了 每 个 工作 表 中 








台 学 习 如 何以 不 同 的 方法 来 入 


F 














个 工作 表 中 的 数据 。 此 





外 ， 只 要 你 知道 如 何 分 析 一 个 工作 表 ， 就 可 以 很 容易 地 扩展 到 分 析 多 个 工作 表 。 


3.2.1 i€'SExcelx ft 
基础 Python 和 xtLrd、xtLwt 模 块 





要 使 用 基础 Python 和 xlrd, xlwt 模块 读 写 Excel 文件 ， 
后 将 文件 保存 为 2excel_parsing_and_write.py: 




















1 #!/usr/bin/env python3 

2 import sys 

3 from xlrd import open workbook 
from xlwt import Workbook 
input file = sys.argv[1] 
output file - sys.argv[2] 
output workbook - Workbook() 


A 


ANAM 


在 文本 编辑 器 中 输入 下 列 代码 ， 然 





output worksheet = output workbook.add sheet('jan 2013 output') 
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9 with open workbook(input file) as workbook: 


10 worksheet = workbook.sheet by name('january 2013') 

11 for row index in range(worksheet.nrows): 

12 for column index in range(worksheet.ncols): 

13 output worksheet.write(row index, column index, V 
14 worksheet.cell value(row index, column index)) 


15 output workbook.save(output file) 


第 3 行 代 码 导 入 xlrd 模块 的 open_workbook 国 数 ， 第 4 行 代码 导入 xlwt 模块 的 Workbook 
对 象 。 

第 7 行 代 码 实例 化 一 个 xtwt Workbook 对 象 ， 以 使 我 们 可 以 将 结果 写 入 用 于 输出 的 Excel 
文件 。 第 8 行 代 码 使 用 xlwt 的 add_sheet 函数 为 输出 工作 矫 添加 一 个 工作 表 jan_2013_ 


output, 
第 9 行 代码 使 用 xlrd 的 open workbook 函数 打开 用 于 输入 的 工作 得， 并 将 结果 赋 给 一 个 
workbook 对 象 。 第 10 行 代码 使 用 这 个 workbook 对 象 的 sheet by name 图 数 引用 名 称 为 
january_2013 的 工作 表 。 
第 11-12 行 代码 创建 了 行 与 列 索 引 值 上 的 for 循环 语句 ， 使 用 range 函数 和 worksheet 对 
象 的 nrows 属性 和 ncols 属性 ， 在 工作 表 的 每 行 和 每 列 之 间 友 代 。 
第 13 行 代码 使 用 xtwt 的 write 函数 和 行 与 列 的 索引 将 每 个 单元 格 的 值 写 入 输出 文件 的 工 
VER. 
最 后 ， 第 15 TCHR FEE a LEE 
要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 : 

python 2excel parsing and write.py sales 2013.xlsx output filesM2output.xls 
你 可 以 打开 输出 文件 2output.xls 查看 一 下 结果 。 
你 可 能 已 经 发 现 ，Purchase Date 列 〈 也 就 是 第 下 列 ) 中 的 日 期 显示 为 数值 ， 不 是 日 期 。 
Excel 将 日 期 和 时 间 保 存 为 浮 点 数 ， 这 个 浮 点 数 代 表 从 1900 年 1 月 0 日 开始 经 过 的 日 期 
数 ， 加 上 一 个 24 小 时 的 小 数 部 分 。 例 如 ， 数 值 1 代表 1900 年 1 月 1 日 ， 因 为 从 1900 年 1 
月 0 日 过 去 了 1 天 。 因 此 ， 这 一 列 中 的 数值 代表 日 期 ， 但 是 没有 格式 化 为 日 期 的 形式 。 
xtd 扩展 包 提供 了 其 他 函数 来 格式 化 日 期 值 。 下 一 个 示例 通过 演示 如 何 格 式 化 日 期 数据 修 
正 了 前 一 个 示例 ， 这 样 日 期 值 就 可 以 像 在 输入 文件 中 一 样 打 印 到 屏幕 上 或 写 入 输出 文件 了 。 
格式 化 日 期 数据 。 这 个 示例 是 基于 前 一 个 示例 的 ， 它 展示 了 如 何 使 用 xLrd 修改 日 期 数据 
格式 ， 使 它们 看 上 去 和 输入 Excel 文件 中 一 样 。 例 如 ， 如 果 Excel 工作 表 中 的 一 个 日 期 数 
据 为 1/19/2000， 那 么 我 们 通常 希望 将 1/19/2000 或 其 他 相关 日 期 格式 写 入 输出 文件 。 但 是 ， 
就 像 前 一 个 示例 中 那样 ， 使 用 现在 的 示例 代码 ， 你 会 在 输出 文件 中 得 到 一 个 数值 36 544.0, 
因为 这 就 是 1/0/1900 和 1/19/2000 之 间 的 天 数 。 
为 了 对 日 期 列 进行 格式 化 ， 在 文本 编辑 器 中 输入 下 列 代码 ， 然 后 将 文件 保存 为 3excel_ 


parsing and write keep dates.py: 
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#!/usr/bin/env python3 

import sys 

from datetime import date 

from xlrd import open workbook, xldate as tuple 

from xlwt import Workbook 

input file = sys.argv[1] 

output file - sys.argv[2] 

output workbook - Workbook() 

output worksheet = output workbook.add sheet('jan 2013 output') 
10 with open workbook(input file) as workbook: 

11 worksheet = workbook.sheet by name('january 2013') 

12 for row index in range(worksheet.nrows): 

13 row list output - [] 

14 for col index in range(worksheet.ncols): 

15 if worksheet.cell type(row index, col index) -- 3: 
16 date cell = xldate as tuple(worksheet.cell valueY 
17 (row index, col index) ,workbook.datemode) 
18 date cell = date(*date cell[0:3]).strftimeY 

19 ('%m/%d/%Y' ) 

20 row list output.append(date cell) 

21 output worksheet.write(row index, col index, date cell) 
22 else: 

23 non date cell = worksheet.cell_value\ 

24 (row index,col index) 

25 row list output.append(non date cell) 

26 output worksheet.write(row index, col index,V 
27 non date cell) 

28 output workbook.save(output file) 


第 3 行 代 码 从 datetime 模块 导入 date 国 数 ， 以 使 我 们 可 以 将 数值 转换 成 日 期 并 对 日 期 进 
行 格式 化 。 

第 4 行 代码 从 xlrd 模块 中 导入 两 个 函数 。 在 前 面 的 示例 中 ， 是 使 用 第 一 个 函数 打开 的 
Excel 工作 短 ， 所 以 这 里 将 重点 介绍 第 二 个 国 数 。 国 数 xldate as tuple 可 以 将 Excel 中 
代表 日 期 、 时 间或 日 期 时 间 的 数值 转换 为 元 组 。 只 要 将 数值 转换 成 了 元 组 ， 就 可 以 提取 
出 具体 时 间 元 素 〈 例 如 : 年 、 月 、 日 ) 并 将 时 间 元 素 格 式 化 成 不 同 的 时 间 格 式 (例如 : 
1/1/2010 或 January 1, 2010)。 

第 15 行 代码 创建 了 一 个 if-else 语 句 来 检验 单元 格 类 型 是 否 为 数字 3。 如 果 你 查 
看 了 xlrd 模 块 的 说 明文 档 (https://secure.simplistix.co.uk/svn/xlrd/trunk/xlrd/doc/xlrd. 
html?p=4966#sheet.Cell-class) ， 就 会 知道 单元 格 类 型 为 3 表示 这 个 单元 格 中 包含 日 期 数据 。 
Atk, if-else 语句 检验 每 个 单元 格 是 否 含 有 日 期 数据 。 如 果 含 有 日 期 数据 ， 那 么 if 代码 
块 就 对 单元 格 进 行 处 理 ， 如 果 不 含有 日 期 数据 ， 那 么 就 使 用 else 代码 块 对 单元 格 进行 处 
里 。 因 为 日 期 数据 在 最 后 一 列 ， 所 以 if 代码 块 处 理 最 后 一 列 。 

第 16 行 代码 使 用 worksheet 对 象 的 cell_value 函数 和 行列 索引 来 引用 单元 格 中 的 值 。 此 外 ， 
你 还 可 以 使 用 ceLL() . value 函数 ， 这 两 个 函数 可 以 给 出 同样 的 结果 。 这 个 单元 格 中 的 值 作为 
xldate as tuple 函数 中 的 第 一 个 参数 ， 会 被 转换 成 元 组 中 的 一 个 代表 日 期 的 浮 点 数 。 

参数 workbook.datemode 是 必需 的 ， 它 可 以 使 函数 确定 日 期 是 基于 1900 年 还 是 基于 1904 
年 ， 并 据 此 将 数值 转换 成 正确 的 元 组 (在 Mac 上 的 某 些 Excel 版 本 从 1904 年 1 月 1 日 
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开始 计算 日 期 。 要 获取 这 方面 的 更 多 信息 ， 请 阅读 Microsoft 参考 指南 (https://support. 
microsoft.com/en-us/kb/214330) , xldate as tuple 函数 的 结果 被 赋 给 一 个 元 组 变量 date | 
cell。 这 行 代码 太 长 了 ， 所 以 被 分 为 两 行 ， 第 一 行 末尾 字符 是 一 个 反 斜 杜 (你 应 该 记得 在 
第 1 章 中 我 们 曾 说 过 反 斜 杠 是 必需 的 ， 这 样 Python 才能 将 这 两 行 解释 为 一 行 )。 尽 管 如 此 ， 
在 你 自己 的 代码 中 ， 可 以 将 所 有 代码 都 写 在 一 行 中 而 不 使 用 反 斜 杠 。 

第 18 行 代码 使 用 元 组 索引 来 引用 元 组 date_cell 中 的 前 3 个 元 素 (也 就 是 年 、 月 、 A) 并 
将 它们 作为 参数 传 给 date 函数 ， 这 个 函数 可 以 将 这 些 值 转换 成 一 个 date A, date 对 象 
在 第 1 章 中 曾 介 绍 过 。 然 后 ，strftime 函数 将 date 对 象 转换 为 一 个 具有 特定 格式 的 字符 
串 。 格 式 '%m/%d/%Y' 表示 像 2014 年 3 月 15 日 这 样 的 日 期 应 该 显示 为 03/15/2014。 格 式 化 
后 的 日 期 字符 串 被 重新 赋 给 变量 date_cell。 第 20 行 代码 使 用 列表 的 append 函数 将 date_ 
cell 中 的 值 追 加 给 输出 列表 row list output, 


在 运行 了 上 面 的 脚本 之 后 ， 为 了 对 第 16 和 18 行 代码 中 的 操作 有 个 大 致 概念 ， 可 以 在 两 个 
date_ceLL=… 行 之 间 添 加 一 个 print 语句 (也 就 是 print(date_ceLL) )。 重 新 保存 并 运行 脚 
本 ， 看 一 下 xldate as tuple 函数 打印 在 屏幕 上 的 结果 。 然 后 ， 删 除 这 个 print 语句 ， 将 
它 移 到 第 二 个 date_cell=… 语 名 下面 。 重 新 保存 并 运行 脚本 ， 看 一 下 date.strftime 国 数 
打印 在 屏幕 上 的 结果 。 这 些 print 语句 可 以 帮助 你 看 到 这 两 行 中 的 函数 是 如 何 将 Excel 中 
代表 日 期 的 数值 转换 成 一 个 元 组 ， 然 后 又 转换 成 格式 化 的 日 期 字符 串 的 。 


else 代码 块 处 理 所 有 的 非 日 期 单元 格 。 第 23 行 代码 使 用 worksheet 对 象 的 cell value PR 
数 和 行列 索引 3 引用 单元 格 中 的 值 ， 并 将 其 赋 给 变量 non date cell, 4525 行 代码 使 用 列表 
的 append 函数 将 non. date cell 中 的 值 追 加 给 row_list_output。 这 两 行 代码 提取 出 每 行 前 
四 列 中 的 值 ， 并 将 它们 追加 到 row list output 中 。 


在 行 中 的 每 一 列 都 处 理 完成 ， 并 加 入 到 row_Ltst_output 中 之 后 ， 第 26 行 代码 将 row_ 
list, output 中 的 值 写 人 输出 文件 。 


要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 : 


python 3excel parsing and write keep dates.py sales 2013.xlsxV 
output filesM3output.xls 


你 可 以 打开 输出 文件 Soutput.xls 查看 一 下 结果 。 


pandas. pandas 也 有 一 组 读 取 Excel 文件 的 函数 。 下 面 是 使 用 pandas 分 析 Excel 文件 的 示 
例 代码 。 请 将 这 段 代 码 保存 为 pandas_read_and_write_excel.py (此 段 代码 读 取 Excel 输入 文 
件 ， 将 内 容 打 印 在 屏幕 上 ， 然 后 将 内 容 写 入 Excel 输出 文件 ) : 


#!/usr/bin/env python3 

import pandas as pd 

import sys 

input file = sys.argv[1] 

output file - sys.argv[2] 

data frame = pd.read excel(input file, sheetname-'january 2013') 
writer - pd.ExcelWriter(output file) 

data frame.to excel(writer, sheet name-'jan 13 output', index-False) 
writer.save() 
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要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 : 


python pandas parsing and write keep dates.py sales 2013.xlsxV 
output filesMpandas output.xls 


你 可 以 打开 输出 文件 pandas_output.xls 查看 一 下 结果 。 


现在 你 已 经 明白 了 如 何 处 理 一 个 Excel 工作 短 中 的 工作 表 ， 以 及 如 何 保留 日 期 格式 ， 那 么 
接 下 来 学 习 一 下 如 何在 工作 表 中 筛选 出 特定 的 行 。 正 如 我 们 在 第 2 章 中 做 的 那样 ， 接 下 来 
将 讨论 如 何 按照 以 下 方式 筛选 行 ，(a) 行 中 的 值 满足 特定 条 件 ，(b) 行 中 的 值 属 于 某 个 集 
frs (c) 行 中 的 值 匹配 于 特定 的 正则 表达 式 。 


3.2.2 ”筛选 特定 行 

有 些 时 候 ， 你 并 不 需要 Excel 文件 中 的 所 有 行 。 例 如 ， 你 可 能 只 需要 包含 一 个 特定 的 词 或 
数值 的 那些 行 ， 或 者 ， 你 可 能 只 需要 那些 与 一 个 具体 日 期 相关 联 的 行 。 在 这 些 情况 下 ， 可 
以 使 用 Python 筛选 掉 不 需要 的 行 ， 只 保留 需要 的 行 。 

你 可 能 已 经 熟悉 了 如 何在 Excel 文件 中 手动 筛选 行 ， 但 是 本 章 重 点 在 于 提高 你 的 能 力 ， 
使 你 可 以 处 理 因 体积 太 大 而 难以 打开 的 Excel 文件 ， 以 及 手动 处 理 过 于 浪费 时 间 的 多 个 
Excel 工作 表 。 

1. 行 中 的 值 满足 某 个 条 件 

基础 Python。 首 先 ， 来 看 一 下 如 何 使 用 基础 Python 筛选 出 特定 的 行 。 在 这 个 示例 中 ， 你 
想 筛选 出 Sale Amount 大 于 $1400.00 的 行 。 

为 了 筛选 出 满足 这 个 条 件 的 行 ， 在 文本 编辑 器 中 输入 下 列 代码 ， 然 后 将 文件 保存 为 4excel_ 


value_meets_condition.py: 



























































#!/usr/bin/env python3 

import sys 

from datetime import date 

from xlrd import open workbook, xldate as tuple 
from xlwt import Workbook 

input file = sys.argv[1] 

output file - sys.argv[2] 

output workbook - Workbook() 

output worksheet = output workbook.add sheet('jan 2013 output') 
10 sale amount column index = 3 

11 with open workbook(input file) as workbook: 


ANDUBWN PB 


Ke) 


12 worksheet = workbook.sheet by name('january 2013') 
13 data - [] 

14 header = worksheet.row values(0) 

15 data.append(header) 

16 for row index in range(1,worksheet.nrows): 

17 row list - [] 

18 sale amount = worksheet.cell valueV 

19 (row index, sale amount column index) 

20 if sale amount » 1400.0: 

21 for column index in range(worksheet.ncols): 
22 cell value = worksheet.cell_value\ 





23 (row index,column index) 


24 cell type = worksheet.cell typeV 

25 (row index, column index) 

26 if cell type == 3: 

27 date cell = xldate as tupleV 

28 (cell value,workbook.datemode) 

29 date cell = date(*date cell[0:3])V 

30 .strftime( '%m/%d/%Y' ) 

31 row list.append(date cell) 

32 else: 

33 row list.append(cell value) 

34 if row list: 

35 data.append(row list) 

36 for list index, output list in enumerate(data): 

37 for element index, element in enumerate(output list): 
38 output worksheet.write(list index, element index, element) 


39 output workbook.save(output file) 


第 13 行 代码 创建 了 一 个 空 列表 data。 我 们 将 用 输入 文件 中 要 写 入 输出 文件 中 的 那些 行 来 
填充 这 个 列表 。 

第 14 行 代码 提取 出 标题 行 中 的 值 。 因 为 我 们 想 保留 标题 行 ， 而 且 检 验 这 一 行 是 否 满足 筛 
选 条 件 没 有 意义 ， 所 以 第 15 行 代码 将 标题 行 直接 追加 到 data rp, 

第 18 行 代码 创建 了 一 个 变量 sale_amount， 用 来 保存 行 中 的 销售 额 。cell_value 函数 使 用 
第 10 行 代码 中 定义 的 sale amount column index 中 的 值 来 定位 Sale Amount 列 。 因 为 我 们 
想 保留 销售 额 大 于 $1400.00 的 那些 行 ， 所 以 要 使 用 这 个 变量 作为 检验 条 件 。 


第 21 行 代 码 创 建 了 一 个 for 循环 ， 来 处 理 Sale Amount 大 于 1400.0 的 那些 行 。 对 于 这 些 
行 ， 我 们 先 提 取出 每 个 单元 格 的 值 ， 赋 给 变量 ceLL_vaLtue， 再 提取 出 每 个 单元 格 的 类 型 ， 
赋 给 变量 ceLL_type。 然 后 ， 检 验 行 中 的 每 个 值 是 否 是 日 期 类 型 。 如 果 是 日 期 类 型 ， 那 么 
就 将 这 个 值 格式 化 成 日 期 数据 。 为 了 生成 一 个 每 个 值 都 正确 格式 化 的 行 ， 我 们 在 第 17 行 
创建 了 一 个 空 列表 row_list， 然 后 用 第 31 和 33 行 代码 将 行 中 的 日 期 类 型 数据 和 非 日 期 类 
型 数据 都 追加 进 row list, 


我 们 为 输入 文件 中 的 每 一 行 都 创建 空 列表 row_tlist， 但 是 只 使 用 值 填充 某 些 空 列表 (就 是 
Sale Amount 这 列 的 值 大 于 1400.0 的 那些 行 的 空 列表 )。 所 以 ， 对 于 输入 文件 中 的 每 一 行 ， 
第 34 行 代码 检验 row list 是 否 为 空 ， 只 将 非 空 的 row_list 添加 到 data 中 。 


最 后 ， 在 第 36 和 37 行 代码 中 ， 我 们 在 data 中 的 各 个 列表 之 间 和 列表 中 的 各 个 值 之 间 进 行 
迭代 ， 将 这 些 值 写 入 输出 文件 。 将 要 保留 的 行 追 加 到 一 个 新 列表 data 中 的 原因 是 ， 这 样 可 
以 得 到 新 的 连续 的 行 索引 值 。 于 是 ， 妆 我 们 将 这 些 行 写 入 输出 文件 时 ， 它 们 看 上 去 就 像 是 一 
个 连续 的 整体 ， 行 与 行 之 间 不 会 出 现 缺口 。 否 则 ， 如 果 在 主体 for 循环 中 处 理 各 行 的 时 候 就 
将 它们 写 入 输出 文件 的 话 ， 那 么 xtwt 的 write 函数 就 会 使 用 输入 文件 中 原来 的 行 索引 值 将 
行 写 和 输出 文件 ， 造 成 行 与 行 之 间 存 在 缺口 。 在 后 面 选择 特定 列 的 小 节 中 ， 我 们 还 会 使 用 这 
各 方法， 以 此 来 保证 将 各 列 作为 一 个 连续 整体 写 人 输出 文件 ， 列 与 列 之 间 不 出 现 缺 口 。 


要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 : 


python 4excel value meets condition.py sales 2013.xlsx output filesMoutput.xls 
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你 可 以 打开 输出 文件 4output.xls 查看 一 下 结果 。 


pandas。 你 可 以 使 用 pandas 箭 选 出 符合 某 个 条 件 的 行 ， 指 定 你 想 判 断 的 列 的 名 称 ， 并 在 
数据 框 名 称 后 面 的 方 括号 中 设 定 具 体 的 判断 条 件 。 例 如 ， 在 下 面 的 脚本 中 ， 我 们 设 定 的 判 
断 条 件 就 可 以 筛选 出 Sale Amount 列 大 于 1400.00 的 所 有 行 。 


如 果 你 需要 设 定 多 个 条 件 ， 那 么 可 以 将 这 些 条 件 放 在 圆 括号 中 ， 根 据 需要 的 逻辑 顺序 用 
“K 或 上 连接 起 来 。 在 注释 掉 的 两 行 代码 中 ， 展 示 了 如 何 基 于 两 个 条 件 来 筛选 行 。 第 
一 行 代码 使 用 “&”， 表 示 两 个 条 件 必须 都 为 真 。 第 二 行 代码 使 用 “|"， 表 示 只 要 一 个 条 件 
为 真 就 可 以 。( 在 下 面 的 示例 代码 中 ， 并 没有 加 了 注释 的 语句 ， 应 该 是 作者 删 掉 了 。 一 一 
译 者 注 ) 

要 使 用 pandas 筛选 出 满足 特定 条 件 的 行 ， 在 文本 编辑 器 中 输入 下 列 代 码 ， 然 后 将 文件 保存 


为 pandas value meets condition.py: 















































it! /usr/bin/env python3 
import pandas as pd 
import sys 
input file = sys.argv[1] 
output file - sys.argv[2] 
data frame - pd.read excel(input file, 'january 2013', index col-None) 
data frame value meets condition = V 
data frame[data frame['Sale Amount'].astype(float) » 1400.0] 
writer - pd.ExcelWriter(output file) 
data frame value meets condition.to excel(writer, sheet name-'jan 13 output',V 
index-False) 
writer.save() 


要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 : 


python pandas_value_meets_condition.py sales 2013.xlsxV 
output filesMpandas output.xls 


你 可 以 打开 输出 文件 pandas. output.xls 查看 一 下 结果 。 

2. 行 中 的 值 属 于 某 个 集合 

基础 Python。 要 使 用 基础 Python 筛选 出 购买 日 期 属于 一 个 特定 集合 (例如: 日 期 
01/24/2013 和 01/31/2013 WEA) 的 行 ， 在 文本 编辑 器 中 输入 下 列 代码 ， 并 将 文件 保存 为 


Sexcel value in set.py: 











it! /usr/bin/env python3 

import sys 

from datetime import date 

from xlrd import open workbook, xldate as tuple 

from xlwt import Workbook 

input file = sys.argv[1] 

output file - sys.argv[2] 

output workbook = Workbook() 

output worksheet = output workbook.add sheet('jan 2013 output') 
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10 important dates = ['01/24/2013', '01/31/2013'] 
11 purchase date column index - 4 
12 with open workbook(input file) as workbook: 


13 worksheet = workbook.sheet by name('january 2013') 

14 data - [] 

15 header - worksheet.row values(0) 

16 data.append(header) 

17 for row index in range(1, worksheet.nrows): 

18 purchase datetime = xldate as tuple(worksheet.cell valueY 

19 (row index, purchase date column index)V 

20 ,workbook.datemode) 

21 purchase date = date(*purchase_datetime[0:3]).strftime('%m/%d/%Y' ) 
22 row list - [] 

23 if purchase date in important dates: 

24 for column index in range(worksheet.ncols): 

25 cell value = worksheet.cell_value\ 

26 (row index,column index) 

27 cell type - worksheet.cell type(row index, column index) 
28 if cell type == 3: 

29 date cell = xldate as tupleV 

30 (cell value,workbook.datemode) 

31 date cell = date(*date_cell[0:3])\ 

32 .strftime('%m/%d/%Y') 

33 row_list.append(date_cell) 

34 else: 

35 row_list.append(cell_value) 

36 if row_list: 

37 data.append(row_list) 

38 for list_index, output_list in enumerate(data): 

39 for element_index, element in enumerate(output_list): 

40 output_worksheet.write(list_index, element_index, element) 


41 output workbook.save(output file) 


这 个 脚本 与 基于 条 件 筛选 行 的 脚本 非常 相似 ， 区 别 在 于 第 10、21 和 23 fT. FH 10 行 代码 
创建 了 一 个 列表 important_dates， 包 含 了 要 使 用 的 日 期 。 第 21 行 代码 创建 了 一 个 变量 
purchase date, ‘“@-F Purchase Date 列 中 格式 化 后 的 值 ， 并 用 它 来 匹配 important dates 
中 格式 化 的 日 期 。 第 23 行 代码 检验 行 中 的 日 期 是 否 是 important_dates 中 的 一 个 日 期 。 如 
果 是 ， 那 么 就 处 理 这 一 行 ， 并 将 其 写 入 输出 文件 。 
要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 : 

python 5excel value in set.py sales 2013.xlsx output_files\5output.xls 
你 可 以 打开 输出 文件 Soutput.xls 查看 一 下 结果 。 
pandas。 在 这 个 示例 中 ， 我 们 想 筛选 出 购买 日 期 为 01/24/2013 或 01/31/2013 的 行 。pandas 
提供 了 isin 国 数 ， 你 可 以 使 用 它 来 检验 一 个 特定 值 是 否 在 一 个 列表 中 。 
要 使 用 pandas 基于 集合 成 员 筷 选 行 ， 在 文本 编辑 器 中 输入 下 列 代 码 ， 然 后 将 文件 保存 为 


pandas_value_in_set.py: 


























#!/usr/bin/env python3 
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import pandas as pd 

import sys 

input file = sys.argv[1] 

output file - sys.argv[2] 

data frame - pd.read excel(input file, 'january 2013', index col-None) 
important dates = ['01/24/2013','01/31/2013' ] 

data frame value in set = data frame[data frame['PurchaseDate']V 
.isin(important dates)] 

writer - pd.ExcelWriter(output file) 

data frame value in set.to excel(writer, sheet name-'jan 13 output', index=False) 
writer.save() 


在 命令 行 中 运行 这 个 脚本 : 
python pandas value in set.py sales 2013.xlsx output_files\pandas_output.xls 
你 可 以 打开 输出 文件 pandas_output.xls 查看 一 下 结果 。 


3. 行 中 的 值 匹 配 于 特定 模式 
基础 Python。 要 使 用 基础 Python 筛选 出 客户 姓名 包含 一 个 特定 模式 (例如: 以 大 写字 母 


J FF) 











的 行 ， 在 文本 编辑 器 中 输入 下 列 代码 ， 然 后 将 文件 保存 为 excel value matches - 


pattern.py : 


1 
2 
3 
4 
5 
6 
7 
8 


9 
10 
11. 
12 
13 
14 
15 
16 
17 
18 
19 
20 
21 
22 
23 
24 
25 
26 
27 
28 
29 
30 
31 


#!/usr/bin/env python3 
import re 
import sys 
from datetime import date 
from xlrd import open workbook, xldate as tuple 
from xlwt import Workbook 
input file = sys.argv[1] 
output file - sys.argv[2] 
output workbook - Workbook() 
output worksheet = output workbook.add sheet('jan 2013 output') 
pattern = re.compile(r'(?P«my pattern»^J.*)') 
customer name column index - 1 
with open workbook(input file) as workbook: 
worksheet = workbook.sheet by name('january 2013') 
data - [] 
header = worksheet.row values(0) 
data.append(header) 
for row index in range(1, worksheet.nrows): 
row list - [] 
if pattern.search(worksheet.cell value 
(row index, customer name column index)): 
for column index in range(worksheet.ncols): 
cell value = worksheet.cell_value\ 
(row index,column index) 
cell type - worksheet.cell type(row index, column index) 
if cell type == 3: 
date cell = xldate as tupleV 
(cell value,workbook.datemode) 
date cell = date(*date_cell[0:3])\ 
.strftime('%m/%d/%Y ' ) 
row list.append(date cell) 





32 else: 


33 row list.append(cell value) 

34 if row list: 

35 data.append(row list) 

36 for list index, output list in enumerate(data): 

37 for element index, element in enumerate(output list): 

38 output worksheet.write(list index, element index, element) 


39 output workbook.save(output file) 
第 2 行 代码 导入 re 模块 ， 以 使 我 们 可 以 使 用 模块 中 的 函数 和 方法 。 


第 11 行 代码 使 用 re 模块 的 compile 函数 创建 了 一 个 正则 表达 式 pattern。 如 有 果 你 能 看 懂 ， 
那么 这 个 函数 中 的 内 容 就 很 好 解释 。r 表示 单 引 号 之 间 的 模式 是 一 个 原始 字符 串 。 元 字 
符 ?P<my_pattern> 捕获 了 名 为 =my_pattern> 的 组 中 匹配 了 的 子 字符 串 ， 以 便 在 需要 时 将 它 
们 打印 到 屏幕 上 或 写 入 文件 。 我 们 要 搜索 的 实际 模式 是 '^J.*'。 插 入 符号 (^) 是 一 个 特 
殊 符 号 ， 表 示 “ 在 字符 串 开 头 搜索 模式 ” 。 所 以 ， 字 符 串 需 要 以 大 写字 母 J 开 头 。 名 点. 可 
以 匹配 任何 字符 ， 除 了 换行 符 。 所 以 除 换行 符 之 外 的 任何 字符 都 可 以 跟 在 J 后 面 。 最 后 ，* 
表示 重复 前 面 的 字符 0 次 或 更 多 次 。.* 组 合 在 一 起 用 来 表示 除 换行 符 之 外 的 任意 字符 可 以 
在 J 后 面 出 现任 意 次 。 


第 20 行 代码 使 用 re 模块 中 的 search 函数 在 Customer Name 列 中 搜索 模式 ， 并 检测 是 否 
能 找到 一 个 匹配 。 如 果 找 到 了 一 个 匹配 ， 就 将 这 一 行 中 的 每 个 值 添加 到 row list 中 。 第 
31 行 代码 将 日 期 值 添 加 到 row list 中 ， 第 33 行 代码 将 非 日 期 值 添加 到 row. list 中 。 如 果 
row list 不 是 空 的 ， 第 35 行 代码 将 row list 中 的 每 个 列表 值 添 加 到 data, 


最 后 ， 第 36 和 37 行 代码 中 的 两 个 for 循环 在 data 中 的 各 个 列表 中 迭代 ， 将 各 行 写 人 输出 
文件 。 
要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 : 
python 6excel value matches pattern.py sales 2013.xlsx output files\60utput.xls 
你 可 以 打开 输出 文件 6output.xls 查看 一 下 结果 。 
pandas。 在 这 个 示例 中 ， 你 想 筛 选 出 客户 姓名 以 大 写字 母 了 开头 的 那些 行 。pandas 提供 了 


若干 字符 串 和 正则 表达 式 函 数 ， 包 括 startswith, endswith, match 和 search 等 ， 你 可 以 
使 用 这 些 函 数 在 文本 中 识别 子 字符 串 和 模式 .。 


要 使 用 pandas 筛选 出 客户 姓名 以 大 写字 母 J 开 头 的 那些 行 ， 在 文本 编辑 器 中 输入 下 列 代 
码 ， 然 后 将 文件 保存 为 pandas value matches pattern.py : 


#!/usr/bin/env python3 

import pandas as pd 

import sys 

input file = sys.argv[1] 

output file - sys.argv[2] 

data frame = pd.read excel(input file, 'january 2013', index col-None) 
data frame value matches pattern = data frame[data frame['Customer Name']V 
.str.startswith("J")] 

writer - pd.ExcelWriter(output file) 
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data frame value matches pattern.to excel(writer, sheet name-'jan 13 output',V 
index-False) 
writer.save() 


要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 : 


python pandas value matches pattern.py sales 2013.xlsxV 
output filesMpandas output.xls 


你 可 以 打开 输出 文件 pandas output.xls 查看 一 下 结果 。 


3.2.3 选取 特定 列 

有 些 时 候 ， 你 并 不 需要 工作 表 中 所 有 的 列 。 在 这 种 情况 下 ， 可 以 使 用 Python 选取 出 你 需要 

保留 的 列 。 

有 两 种 通用 方法 可 以 在 Excel 文件 中 选取 特定 的 列 。 下 面 的 小 市 演示 了 这 两 种 选取 列 的 方法 : 

。 使 用 列 索 引 值 

。 使 用 列 标题 

1. 列 索引 值 

基础 Python。 从 工作 表 中 选取 特定 列 的 一 种 方法 是 使 用 要 保留 的 列 的 索引 值 。 当 你 想 保留 

的 列 的 索引 值 非常 容易 识别 ， 或 者 在 处 理 多 个 输入 文件 过 程 中 ， 各 个 输入 文件 中 列 的 位 置 
一 致 (也 就 是 不 会 发 生 改 变 ) 的 时 候 ， 这 种 方法 非常 有 效 。 

例如 ， 假 设 我 们 想 保留 Customer Name 和 Purchase Date 这 两 列 。 要 使 用 基础 Python 选取 

这 两 列 ， 在 文本 编辑 器 中 输入 下 列 代 码 ， 然 后 将 文件 保存 为 7excel_column_by_index.py: 



































1 #!/usr/bin/env python3 

2 import sys 

3 from datetime import date 

4 from xlrd import open workbook, xldate as tuple 
5 from xlwt import Workbook 

6 input file - sys.argv[1] 

7 output file - sys.argv[2] 

8 output workbook - Workbook() 

9 output worksheet = output workbook.add sheet('jan 2013 output') 
10 my columns - [1, 4] 

11 with open workbook(input file) as workbook: 


12 worksheet - workbook.sheet by name('january 2013') 

13 data - [] 

14 for row index in range(worksheet.nrows): 

15 row list - [] 

16 for column index in my columns: 

17 cell value = worksheet.cell value(row index,column index) 
18 cell type - worksheet.cell type(row index, column index) 
19 if cell type == 3: 

20 date cell = xldate as tuple| 

21 (cell value,workbook.datemode) 

22 date cell = date(*date_cell[0:3]).strftime('%m/%d/%Y' ) 





23 row list.append(date cell) 


24 else: 

25 row list.append(cell value) 

26 data.append(row list) 

27 for list index, output list in enumerate(data): 

28 for element index, element in enumerate(output list): 

29 output worksheet.write(list index, element index, element) 


30 output workbook.save(output file) 


第 10 行 代码 创建 了 一 个 列表 变量 my_columns， 包 含 整数 1 和 4。 这 两 个 整数 分 别 代 表 





Customer Name 和 Purchase Date 列 的 索引 值 。 














第 16 行 代码 创建 了 一 个 for 循环 ， 在 ny columns 中 的 两 个 列 索引 值 之 间 迭 代 。 在 每 次 循环 
中 ， 提 取出 列 中 单元 格 的 值 和 类 型 ， 判 断 单 元 格 中 的 值 是 否 是 日 期 类 型 ， 并 对 单元 格 进行 









































相应 处 理 ， 然 后 将 值 追 加 到 row list 中 。 第 26 行 代码 将 row ist 中 的 值 添加 到 data 中 。 





最 后 ， 第 27 和 28 行 代码 中 的 两 个 for 循环 在 data 中 的 列表 之 间 选 代 ， 将 其 中 的 值 写 入 输 


出 文件 。 
要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 : 
python 7column column by index.py sales 2013.xlsx output_files\7output.xls 


你 可 以 打开 输出 文件 Toutput.xls 查看 一 下 结果 。 





pandas。 有 很 多 方法 可 以 使 用 pandas 选取 特定 列 。 一 种 方法 是 设置 数据 框 ， 在 方 括号 中 


列 出 要 保留 的 列 的 索引 值 或 名 称 (字符 串 ) 。 
另 一 种 方法 ， 也 就 是 下 面 所 展示 的 ， 是 设置 数据 框 和 iloc 函数 。iloc 函数 非常 有 用 ， 




















因 


为 它 可 以 使 你 同时 选择 特定 的 行 与 特定 的 列 。 所 以 ， 如 果 使 用 tloc 函数 来 选择 列 ， 那 么 就 
需要 在 列 索 引 值 前 面 加 上 一 个 冒号 和 一 个 辟 号 ， 表示 你 想 为 这 些 特定 的 列 保留 所 有 的 行 。 
































否则 ，iloc 函数 也 会 使 用 这 些 索引 值 去 科 选 行 。 











要 使 用 pandas 基于 索引 值 去 选取 列 ， 在 文本 编辑 器 中 输入 下 列 代码 ， 然 后 将 文件 保存 为 





pandas column by. index.py: 


#!/usr/bin/env python3 

import pandas as pd 

import sys 

input file = sys.argv[1] 

output file - sys.argv[2] 

data frame = pd.read excel(input file, 'january 2013', index col-None) 
data frame column by index = data frame.iloc[:, [1, 4]] 

writer - pd.ExcelWriter(output file) 

data frame column by index.to excel(writer, sheet name-'jan 13 output',| 
index-False) 

writer.save() 


要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 : 


python pandas column by index.py sales 2013.xlsx output_files\pandas_output.xls 
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你 可 以 打开 输出 文件 pandas_output.xls 查看 一 下 结果 。 

2. 列 标题 

第 二 种 在 工作 表 中 选取 一 组 列 的 方法 是 使 用 列 标题 。 当 你 想 保留 的 列 的 标题 非常 容易 识 
别 ， 或 者 在 处 理 多 个 输入 文件 过 程 中 ， 各 个 输入 文件 中 列 的 位 置 会 发 生 改 变 ， 但 标题 不 变 


的 时 候 ， 














这 种 方法 非常 有 效 。 


基础 Python。 要 使 用 基础 Python 选取 Customer ID 和 Purchase Date 列 ， 在 文本 编辑 器 中 
输入 下 列 代码 ， 然 后 将 文件 保存 为 8excel_column_by_name.py: 
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第 10 行 





#!/usr/bin/env python3 
import sys 
from datetime import date 
from xlrd import open workbook, xldate as tuple 
from xlwt import Workbook 
input file = sys.argv[1] 
output file - sys.argv[2] 
output workbook - Workbook() 
output worksheet = output workbook.add sheet('jan 2013 output') 
my columns - ['Customer ID', 'Purchase Date'] 
with open workbook(input file) as workbook: 
worksheet - workbook.sheet by name('january 2013') 
data - [my columns] 
header list - worksheet.row values(0) 
header index list - [] 
for header index in range(len(header list)): 
if header list[header index] in my columns: 
header index list.append(header index) 
for row index in range(1,worksheet.nrows): 
row list - [] 
for column index in header index list: 
cell value - worksheet.cell value(row index,column index) 
cell type - worksheet.cell type(row index, column index) 
if cell type == 3: 
date cell = xldate as tupleV 
(cell value,workbook.datemode) 
date cell = date(*date_cell[0:3]).strftime( '%m/%d/%Y ' ) 
row list.append(date cell) 
else: 
row list.append(cell value) 
data.append(row list) 
for list index, output list in enumerate(data): 
for element index, element in enumerate(output list): 
output worksheet.write(list index, element index, element) 
output workbook.save(output file) 


代码 创建 了 一 个 列表 变量 mny_cotumns， 包 含 要 保留 的 两 列 的 名 称 。 因 为 这 是 要 写 











入 输出 文件 的 列 标题 ， 所 以 在 第 13 行 代码 中 ， 直 接 将 其 加 入 输出 列表 data, 





第 1617 


代码 创建 了 一 个 for 循环 ， 在 header list 中 的 列 标题 索引 值 之 间 和 迭代。 第 17 行 


代码 使 用 列表 索引 来 检验 每 个 列 标题 是 否 在 列表 my columns 中 。 如 果 是 ， 就 使 用 第 18 fr 
代码 将 这 个 列 标题 的 索引 值 追加 到 header index list 中 。 后 面 将 在 第 21 行 代码 中 使 用 这 
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些 索 引 值 ， 仅 处 理 那 些 要 写 入 输出 文件 的 列 。 
第 21 行 代码 创建 了 一 个 for 循环 ， 在 header index list 中 的 列 索引 值 之 间 迭 代 。 通 过 使 
用 header_index_List， 只 处 理 在 my columns 中 列 出 的 那些 列 。 
要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 : 
python 8excel column by name.py sales 2013.xlsx output filesM8output.xls 
你 可 以 打开 输出 文件 Soutput.xls 查看 一 下 结果 。 


pandas。 要 使 用 pandas 基于 列 标题 选取 特定 列 ， 一 种 方式 是 在 数据 框 名 称 后 面 的 方 括号 
中 将 列 名 以 字符 串 方 式 列 出 。 另 外 一 种 方式 是 使 用 Voc 函数 。 如 果 使 用 Voc 函数 ， 那 么 需 
要 在 列 标题 列表 前 面 加 上 一 个 冒号 和 一 个 过 号 ， 表示 你 想 为 这 些 特定 的 列 保留 所 有 行 。 

要 使 用 pandas 基于 列 标题 选取 列 ， 在 文本 编辑 器 中 输入 下 列 代码 ， 然 后 将 文件 保存 为 


pandas column by name.py: 








L 


















































#!/usr/bin/env python3 

import pandas as pd 

import sys 

input_file = sys.argv[1] 

output_file = sys.argv[2] 

data_frame = pd.read_excel(input_file, 'january_2013', index_col=None) 
data frame column by name = data frame.loc[:, ['Customer ID', ‘Purchase Date']] 
writer - pd.ExcelWriter(output file) 

data frame column by name.to excel(writer, sheet name-'jan 13 output',V 
index-False) 

writer.save() 


要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 : 
python pandas column by name.py sales 2013.xlsx output filesWpandas output.xls 


你 可 以 打开 输出 文件 pandas_output.xls 查看 一 下 结果 。 


3.3 读 取 工 作 往 中 的 所 有 工作 表 


本 章 到 目前 为 止 ， 都 在 演示 如 何 处 理 单个 工作 表 。 有 些 时 候 ， 你 只 需要 处 理 一 个 工作 表 就 
可 以 了 。 在 这 些 情况 下 ， 这 里 的 示例 可 以 告诉 你 如 何 使 用 Python 程序 去 自动 处 理工 作 表 。 


但 是 ， 在 很 多 情况 下 你 需要 处 理 多 个 工作 表 ， 多 到 使 用 手工 处 理 效率 非常 低 或 者 根本 不 可 
行 。 在 这 种 情况 下 ，Python 会 给 你 惊喜 ， 因 为 它 可 以 让 你 自动 化 和 规模 化 地 进行 数据 处 
理 ， 远 远 超 过 手工 处 理 能 够 达到 的 限度 。 本 小 节 提 供 了 两 个 示例 ， 演 示 了 如 何在 一 个 工作 
短 的 所 有 工作 表 中 筛选 特定 的 行 与 列 。 

我 仅 提供 一 个 用 于 筛选 行 的 示例 和 一 个 用 于 筛选 列 的 示例 ， 因 为 我 想 把 本 章 篇 幅 保留 在 合 
理 范 围 之 内 〈 后 面 还 会 有 介绍 如 何 处 理 一 个 工作 短 中 特定 的 一 组 工作 表 和 如 何 处 理 多 个 工 
作 短 的 章节 )。 此 外 ， 在 前 面 的 示例 中 ， 你 已 经 掌握 了 选择 特定 的 行 与 列 的 其 他 方法 ， 就 
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应 该 知道 如 何 将 那些 科 选 操作 应 用 在 这 里 的 示例 中 。 


3.3.1 在 所 有 工作 表 中 筛选 特定 行 


1. 基础 Python 
要 使 用 基础 Python 在 所 有 工作 表 中 筛选 出 销售 额 大 于 $2000.00 的 所 有 行 ， 在 文本 编辑 器 
中 输入 下 列 代码 ， 然 后 将 文件 保存 为 9excel_value_meets_condition_all_worksheets.py: 








1 #!/usr/bin/env python3 

2 import sys 

3 from datetime import date 

4 from xlrd import open workbook, xldate as tuple 
5 from xlwt import Workbook 

6 input file = sys.argv[1] 

7 output file - sys.argv[2] 

8 output workbook - Workbook() 

9 output worksheet - output workbook.add sheet('filtered rows all worksheets') 
10 sales column index - 3 

11 threshold - 2000.0 

12 first worksheet - True 

13 with open workbook(input file) as workbook: 

14 data - [] 


15 for worksheet in workbook.sheets(): 

16 if first worksheet: 

17 header row = worksheet.row values(0) 

18 data.append(header row) 

19 first worksheet - False 

20 for row index in range(1,worksheet.nrows): 

21 row list - [] 

22 sale amount = worksheet.cell valueV 

23 (row index, sales column index) 

24 if sale amount » threshold: 

25 for column index in range(worksheet.ncols): 
26 cell value = worksheet.cell_value\ 

27 (row index,column index) 

28 cell type = worksheet.cell_type\ 

29 (row index, column index) 

30 if cell type == 3: 

31 date cell = xldate as tuple| 

32 (cell value,workbook.datemode) 

33 date cell = date(*date cell[0:3])V 
34 .strftime( '9*m/96d/96Y ' ) 

35 row list.append(date cell) 

36 else: 

37 row list.append(cell value) 

38 if row list: 

39 data.append(row list) 

40 for list index, output list in enumerate(data): 

41 for element index, element in enumerate(output list): 
42 output worksheet.write(list index, element index, element) 


43 output workbook.save(output file) 




















第 10 行 代码 创建 了 一 个 变量 sales column index, 保存 Sale Amount 列 的 索引 值 。 同 样 ， 
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第 11 行 代码 创建 了 一 个 变量 threshold 来 保存 你 所 关心 的 销售 额 。 我 们 要 将 Sale Amount 
列 中 的 每 个 值 与 这 个 国 值 进 行 比较 ， 来 确定 哪 一 行 要 被 号 和 人 到 输出 文件 中 。 


第 15 行 代码 创建 了 一 个 for 循环 ， 用 来 在 工作 短 中 的 所 有 工作 表 之 间 迭 代 。 它 使 用 
workbook 对 象 的 sheets 属性 来 列 出 工作 矫 中 所 有 的 工作 表 。 


第 16 行 代码 判断 当前 工作 表 是 不 是 第 一 个 工作 表 ， 如 果 是 第 一 个 工作 表 ， 我 们 就 提取 出 
标题 行 ， 将 其 追加 到 data 中 ， 然 后 将 first worksheet 设 为 False。 代 码 继续 处 理 余下 的 
销售 额 大 于 国 值 的 数据 行 。 

对 于 所 有 后 续 的 工作 表 ，first_worksheet 都 是 False， 所 以 脚本 直接 来 到 第 20 行 代码 处 
理 每 个 工作 表 中 的 数据 行 。 因 为 range 函数 不 是 从 0 开始 ， 而 是 从 1 开始， 所 以 你 应 该 知 
道 代 码 处 理 的 是 数据 行 ， 不 是 标题 行 。 

要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 : 


python 9excel value meets condition all worksheets.py sales 2013.xlsxV 
output filesM9output.xls 


你 可 以 打开 输出 文件 9output.xIs 查看 一 下 结果 。 


2. pandas 

在 pandas 中 ， 通 过 在 read excel 函数 中 设置 sheetname=None， 可 以 一 次 性 读 取 工 作 短 中 的 
所 有 工作 表 。pandas 将 这 些 工作 表 读 入 一 个 数据 框 字典 ， 字 典 中 的 键 就 是 工作 表 的 名 称 ， 
值 就 是 包含 工作 表 中 数据 的 数据 框 。 所 以 ， 通 过 在 字典 的 键 和 值 之 间 迭 代 ， 你 可 以 使 用 工 
作 短 中 所 有 的 数据 。 当 你 在 每 个 数据 框 中 筛选 特定 行 时 ， 结 果 是 一 个 新 的 筛选 过 的 数据 框 ， 
所 以 你 可 以 创建 一 个 列表 保存 这 些 往 选 过 的 数据 框 ， 然 后 将 它们 连接 成 一 个 最 终 数 据 框 。 

在 下 面 这 个 示例 中 ， 我 们 想 在 所 有 工作 表 中 筛选 出 销售 额 大 于 $2000.00 的 所 有 行 。 要 使 用 
pandas 筛选 出 这 些 行 ， 在 文本 编辑 器 中 输入 下 列 代码 ， 然 后 将 文件 保存 为 pandas_value_ 


meets condition all worksheets.py : 
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#!/usr/bin/env python3 
import pandas as pd 
import sys 
input file = sys.argv[1] 
output file - sys.argv[2] 
data frame = pd.read excel(input file, sheetname=None, index col-None) 
row output - [] 
for worksheet name, data in data frame.items(): 
row output.append(data[data['Sale Amount'].astype(float) » 2000.0]) 
filtered rows - pd.concat(row output, axis-0, ignore index-True) 
writer - pd.ExcelWriter(output file) 
filtered rows.to excel(writer, sheet name-'sale amount gt2000', index-False) 
writer.save() 


要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 : 


python pandas value meets condition all worksheets.py sales 2013.xlsxV 
output filesMpandas output.xls 


你 可 以 打开 输出 文件 pandas_output.xls 查看 一 下 结果 。 
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3.3.2 在 所 有 工作 表 中 选取 特定 列 


有 些 时 候 ，Excel 工作 矫 中 包含 了 多 个 工作 表 ， 每 个 工作 表 中 包含 的 列 并 不 都 是 你 需要 的 。 
在 这 种 情况 下 ， 你 可 以 使 用 Python 读 取 所 有 工作 表 ， 筛 选 掉 不 需要 的 列 ， 只 保留 需要 的 列 。 


从 前 面 的 内 容 可 知 ， 至 少 有 两 种 方法 可 以 从 工作 表 中 选取 一 组 列 : 使 用 列 索引 值 和 列 标 
题 。 下 面 的 示例 演示 了 如 何 使 用 列 标题 从 一 个 工作 短 的 所 有 工作 表 中 选取 特定 的 列 。 


1. 基础 Python 
要 使 用 基础 Python 在 所 有 工作 表 中 选取 Customer Name 和 Sale Amount 列 ， 在 文本 编辑 器 
中 输入 下 列 代码 ， 然 后 将 文件 保存 为 10excel_column_by_name_all_worksheet.py: 


#!/usr/bin/env python3 

import sys 

from datetime import date 

from xlrd import open_workbook, xldate_as_tuple 
from xlwt import Workbook 

input_file = sys.argv[1] 

output_file = sys.argv[2] 

output workbook = Workbook() 

output worksheet - output workbook.add sheet('selected columns all worksheets') 
my columns - ['Customer Name', 'Sale Amount'] 
first worksheet - True 

with open workbook(input file) as workbook: 

13 data = [my columns] 

14 index of cols to keep - [] 
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15 for worksheet in workbook.sheets(): 

16 if first worksheet: 

17 header = worksheet.row values(0) 

18 for column index in range(len(header)): 

19 if header[column index] in my columns: 

20 index of cols to keep.append(column index) 
21 first worksheet - False 

22 for row index in range(1, worksheet.nrows): 

23 row list - [] 

24 for column index in index of cols to keep: 

25 cell value = worksheet.cell_value\ 

26 (row index, column index) 

27 cell type - worksheet.cell type(row index, column index) 
28 if cell type == 3: 

29 date cell = xldate as tupleV 

30 (cell value,workbook.datemode) 

31 date cell = date(*date cell[0:3])V 

32 .strftime('9m/9id/*Y ' ) 

33 row list.append(date cell) 

34 else: 

35 row list.append(cell value) 

36 data.append(row list) 

37 for list index, output list in enumerate(data): 

38 for element index, element in enumerate(output list): 

39 output worksheet.write(list index, element index, element) 


40 output workbook.save(output file) 


第 10 行 代码 创建 了 一 个 列表 变量 my_cotumns， 包 含 了 我 们 要 保留 的 两 列 的 名 称 。 
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第 13 行 代 码 将 my, columns 放 和 data, E% data 中 的 第 一 个 列表 ， 因 为 它 是 要 写 入 输出 
文件 的 列 的 列 标题 。 第 14 行 代码 创建 了 一 个 空 列 表 index_of_cols_to_keep， 用 来 保存 
Customer Name 和 Sale Amount 列 的 索引 值 。 


第 16 行 代码 检验 当前 是 否 在 处 理 第 一 个 工作 表 。 如 果 是 第 一 个 工作 表 ， 我 们 就 识别 出 
Customer Name 和 Sale Amount 列 的 索引 值 ， 并 将 其 追加 到 列表 index of cols to keep 
中 。 然 后 ， 将 first worksheet 的 值 设 为 Fatse。 代 码 继续 处 理 余 下 的 数据 行 ， 第 24 行 代 
码 仅 用 于 处 理 Customer Name 和 Sale Amount 列 中 的 值 。 
对 于 所 有 后 续 的 工作 表 ，first_worksheet 都 是 False， 所 以 脚本 直接 来 到 第 22 行 代码 处 
理 每 个 工作 表 中 的 数据 行 。 对 于 这 些 工作 表 ， 只 处 理 索 引 值 在 index of. cols to keep 中 
的 那些 列 。 如 果 这 些 列 中 有 日 期 型 数据 ， 就 将 其 格式 化 。 在 组 合 好 一 行 要 写 入 输出 文件 的 
数据 之 后 ， 使 用 第 36 行 代码 将 这 个 数据 列表 追加 到 data 中 。 

要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 : 

python 10excel column by name all worksheets.py sales 2013.xlsxV 


output_files\10output.xls 


你 可 以 打开 输出 文件 10output.xls 查看 一 下 结果 。 

2. pandas 

我 们 再 一 次 使 用 pandas 中 的 read. excel 函数 将 所 有 工作 表 读 入 一 个 字典 。 然 后 ， 使 用 Voc 
函数 在 每 个 工作 表 中 选取 特定 的 列 ， 创 建 一 个 往 选 过 的 数据 框 列表 ， 并 将 这 些 数据 框 连接 
在 一 起 ， 形 成 一 个 最 终 数据 框 。 

在 这 个 示例 中 ， 我 们 想 在 所 有 工作 表 中 选取 Customer Name fll Sale Amount 列 。 要 使 用 
pandas 选取 这 些 列 ， 在 文本 编辑 器 中 输入 下 列 代码 ， 然 后 将 文件 保存 为 pandas_column_ 


by_name_all_worksheets.py: 








TI 



































#!/usr/bin/env python3 
import pandas as pd 
import sys 
input file = sys.argv[1] 
output file - sys.argv[2] 
data frame = pd.read excel(input file, sheetname-None, index col-None) 
column output - [] 
for worksheet name, data in data frame.items(): 

column output.append(data.loc[:, ['Customer Name', 'Sale Amount']]) 
selected columns = pd.concat(column output, axis-0, ignore index-True) 
writer - pd.ExcelWriter(output file) 
selected columns.to excel(writer, sheet name-'selected columns all worksheets',V 
index-False) 
writer.save() 


要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 : 


python pandas column by name all worksheets.py sales 2013.xlsxV 
output filesMpandas output.xls 


你 可 以 打开 输出 文件 pandas_output.xls 查看 一 下 结果 。 
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3.4 在 Excel 工 作 敌 中 读 取 一 组 工作 表 


本 章 最 开始 的 几 小 节 演 示 了 如 何在 一 个 工作 表 中 筛选 特定 的 行 与 特定 的 列 。 前 一 个 小 节 演 
示 了 如 何在 一 个 工作 筹 的 所 有 工作 表 中 筛选 特定 的 行 与 列 。 

但 是 ， 有 些 情况 下 ， 你 只 需要 处 理工 作 得 中 的 一 组 工作 表 。 例 如 ， 你 的 工作 得 可 能 包含 很 
多 工作 表 ， 但 是 你 只 需要 处 理 其 中 的 20 个 。 在 这 种 情况 下 ， 可 以 使 用 工 组 得 的 sheet_by_ 
index 或 sheet by name 国 数 来 处 理 一 组 工作 表 。 

这 一 小 市 只 提供 了 一 个 示例 来 演示 如 何在 工作 竹 的 一 组 工作 表 中 筛选 特定 的 行 。 之 所 以 这 
样 做 ， 是 因为 到 目前 为 止 ， 你 应 该 能 够 将 前 面 各 个 示例 中 的 秘 选 与 选择 操作 集成 到 这 个 示 
例 中 了 。 


在 一 组 工作 表 中 筛选 特定 行 

1. 基础 Python 

在 这 个 示例 中 ， 我 们 想 从 第 一 个 和 第 二 个 工作 表 中 筛选 出 销售 额 大 于 $1900.00 的 那些 行 。 
要 使 用 基础 Python 从 第 一 个 和 第 二 个 工作 表 中 筛选 出 这 样 的 行 ， 在 文本 编辑 器 中 输入 下 列 
代码 ， 然 后 将 文件 保存 为 11excel_value_meets_condition_set_of_worksheets.py: 












































#!/usr/bin/env python3 

import sys 

from datetime import date 

from xlrd import open_workbook, xldate_as_tuple 
from xlwt import Workbook 

input_file = sys.argv[1] 

output_file = sys.argv[2] 

output_workbook = Workbook() 

9 output worksheet = output workbook.add sheet('set of worksheets') 
10 my sheets - [0,1] 

11 threshold - 1900.0 

12 sales column index - 3 

13 first worksheet - True 

14 with open workbook(input file) as workbook: 

15 data - [] 


co ~ mA 和 上 WwWwP 请 


16 for sheet index in range(workbook.nsheets): 

17 if sheet index in my sheets: 

18 worksheet - workbook.sheet by index(sheet index) 
19 if first worksheet: 

20 header row = worksheet.row values(0) 

21 data.append(header row) 

22 first worksheet - False 

23 for row index in range(1,worksheet.nrows): 

24 row list - [] 

25 sale amount = worksheet.cell valueY 

26 (row index, sales column index) 

27 if sale amount » threshold: 

28 for column index in range(worksheet.ncols): 
29 cell value = worksheet.cell_value\ 
30 (row index,column index) 

31 cell type = worksheet.cell_type\ 





32 (row index, column index) 


33 if cell type == 3: 

34 date cell = xldate as tupleV 

35 (cell value,workbook.datemode) 

36 date cell = date(*date cell[0:3])V 
37 .strftime('9m/9id/*Y ' ) 

38 row list.append(date cell) 

39 else: 

40 row list.append(cell value) 

41 if row list: 

42 data.append(row list) 

43 for list index, output list in enumerate(data): 

44 for element index, element in enumerate(output list): 

45 output worksheet.write(list index, element index, element) 


46 output workbook.save(output file) 


第 10 行 代码 创建 了 一 个 列表 变量 my_sheets， 其 中 包含 两 个 整数 ， 表 示 要 处 理 的 工作 表 的 
索引 值 。 

第 16 行 代 码 创 建 了 工作 短 中 所 有 工作 表 的 索引 值 ， 并 在 这 些 索引 值 上 应 用 一 个 for 循环 。 
第 17 行 代码 检验 for 循环 中 要 处 理 的 索引 值 是 否 是 ny. sheets 中 的 一 个 索引 值 。 这 个 检验 
确保 代码 只 处 理 那 些 我 们 想 处 理 的 工作 表 。 

因为 我 们 在 工作 表 索 引 值 之 间 迭 代 ， 所 以 在 第 18 行 代码 中 ， 需 要 使 用 工作 短 的 sheet_by_ 
index 图 数 与 索引 值 一 起 引用 当前 工作 表 。 

对 于 要 处 理 的 第 一 个 工作 表 ， 第 19 行 代 码 为 True， 所 以 我 们 将 标题 行 追加 到 data 中 ， 然 
后 将 first worksheet 设 为 False。 此 后 ， 和 前 面 的 示例 一 样 ， 以 同样 的 方法 处 理 余下 的 数 
据 行 。 对 于 第 二 个 和 此 后 要 处 理 的 工作 表 ， 脚 本 直接 转 到 第 23 行 代码 来 处 理工 作 表 中 的 
数据 行 。 

要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 : 


python 11excel value meets condition set of worksheets.py sales_2013.xlsx\ 
output filesMi1output.xls 


你 可 以 打开 输出 文件 Lloutput.xls 查看 一 下 结果 。 
2. pandas 
使 用 pandas 在 工作 短 中 选择 一 组 工作 表 非 常 容 易 。 你 只 需 在 read excel 函数 中 将 工作 表 


的 索引 值 或 名 称 设置 成 一 个 列表 就 可 以 了 。 在 这 个 示例 中 ， 我 们 创建 一 个 索引 值 列表 my_ 
sheets， 然 后 在 read excel 国 数 中 设 定 sheetname 等 于 my. sheets, 


要 使 用 pandas 选择 一 组 工作 表 ， 在 文本 编辑 器 中 输入 下 列 代码 ， 然 后 将 文件 保存 为 


pandas value meets condition set of worksheets.py : 























































































































i! /usr/bin/env python3 
import pandas as pd 
import sys 

input file = sys.argv[1] 
output file - sys.argv[2] 
my sheets - [0,1] 
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threshold = 1900.0 


data frame = pd.read excel(input file, sheetname-my sheets, index col-None) 


row list - [] 


for worksheet name, data in data frame.items(): 
row list.append(data[data['Sale Amount'].astype(float) » threshold]) 
filtered rows - pd.concat(row list, axis-0, ignore index-True) 


writer - pd.ExcelWriter(output file) 


filtered rows.to excel(writer, sheet name-'set of worksheets', index-False) 


writer.save() 


要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 : 








python pandas value meets condition set of worksheets.pyV 
sales 2013.xlsx output filesMpandas output.xls 





你 可 以 打开 输出 文件 pandas. output.xlIs 查看 一 下 


3.5 SBS SLES 








结果 。 


本 章 前 面 的 几 小 节 演 示 了 如 何 为 单个 工作 表 、 工 作 短 中 所 有 的 工作 表 和 工作 得 中 的 一 组 工 
作 表 筛选 出 特定 的 行 与 特定 的 列 。 这 些 处 理工 作 短 的 技术 是 非常 有 用 的 。 但 是 ， 有 时 你 需 
要 处 理 多 个 工作 短 。 在 这 种 情况 下 ，Python 会 给 你 惊喜 ， 因 为 它 可 以 让 你 自动 化 和 规模 化 







































































好 进行 数据 处 理 ， 远 远 超 过 手工 处 理 能 够 达到 的 限度 。 


这 一 节 重 新 引入 了 Python 内 置 的 glob 模块 ， 之 前 第 2 章 中 曾 介绍 过 这 个 模块 。 在 本 章 前 
而 儿 个 示例 的 基础 上 ， 下 面 演示 一 下 如 何 处 理 多 个 工作 憩 。 


为 了 使 用 多 个 工作 敌 ， 首 先 需要 创建 多 个 工作 短 。 那 么 让 我 们 再 创建 另外 两 个 Excel 工作 
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文件 ， 只 要 计算 机 能 力 允 许 。 

先 从 下 面 这 个 步骤 开始 。 

(1) 打开 现 有 的 工作 得 sales_2013.xlsx。 

现在 ， 创 建 第 二 个 工作 得。 

(2) 将 现 有 的 3 个 工作 表 名 称 改 为 january_2014、 

















这 里 介绍 的 技术 可 以 扩展 为 处 理 任意 多 的 








february_2014 和 march_2014。 


(3) 4E 3 个 工作 表 中 ， 将 Purchase Date 列 中 的 年 份 改 成 2014。 
每 个 工作 表 中 有 6 行 数据 ， 所 以 你 一 共 需 要 进行 18 次 修改 〈6 行 *3 个 工作 表 )。 除 了 





修改 年 份 以 外 ， 不 需要 修改 其 他 内 容 。 
(4) 将 第 二 个 工作 禾 保 存 为 sales_2014.xlsx。 


3-10 展示 了 修改 过 日 期 后 的 january_2014 工作 表 中 的 内 容 。 
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1 |Customer ID jCustomer Name Invoice Number Sale Amount Purchase Date 
2 1234 John Smith 100-0002 $1,200.00 1/1/2014 
3 2345 Mary Harrison 100-0003 $1,425.00 1/6/2014 
4 3456 Lucy Gomez 100-0004 $1,390.00 1/11/2014 
5 4567 Rupert Jones 100-0005 $1,257.00 1/18/2014 
6 5678 Jenny Walters 100-0006 $1,725.00 1/24/2014 
T 6789 Samantha Donaldson 100-0007 $1,995.00 1/31/2014 
8 

9 

10 

11 











& 3-10: 修改 第 一 个 工作 短 中 的 数据 ， 创 建 第 二 个 工作 簿 


现在 ， 创 建 第 三 个 工作 短 。 


(5) 将 现 有 的 3 个 工作 表 名 称 改 为 january_ 2015、february_ 2015 和 march_2015。 
(6) ££ 3 个 工作 表 中 ， 将 Purchase Date 列 中 的 年 份 改 成 2015。 


每 个 工作 表 中 有 6 行 数据 ， 所 以 你 一 共 需 要 进行 18 次 修改 〈6 行 *3 个 工作 表 )。 除 了 


修改 年 份 以 外 ， 不 需要 修改 其 他 内 容 。 
(7) 将 第 三 个 工作 敌人 保存 为 sales_2015.xlsx。 
图 3-11 展示 了 修改 过 日 期 后 的 january_2015 工作 表 中 的 内 容 。 














Good ^ EN 
D E 

1 |Customer ID |Customer Name Invoice Number Sale Amount Purchase Date 
2 1234 John Smith 100-0002 $1,200.00 1/1/2015 
3 2345 Mary Harrison 100-0003 $1,425.00 1/6/2015 
4 3456 Lucy Gomez 100-0004 $1,390.00 1/11/2015 
5 4567 Rupert Jones 100-0005 $1,257.00 1/18/2015 
6 5678 Jenny Walters 100-0006 $1,725.00 1/24/2015 
7 6789 Samantha Donaldson 100-0007 $1,995.00 1/31/2015 
8 

9 

10 

11 

12 


january 2015 | fma | mamans | 














图 3-11: 修改 第 二 个 工作 短 中 的 数据 ， 创 建 第 三 个 工作 簿 
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3.5.1 工作 表 计 数 以 及 每 个 工作 表 中 的 行列 计数 

在 某 些 情况 下 ， 你 知道 要 处 理 的 工作 得 中 的 内 容 。 但 是 ， 有 些 时 候 工 作 短 不 是 你 创建 的 ， 
所 以 你 不 清楚 其 中 的 内 容 。 与 CSV 文件 不 同 ，Excel 工作 禾 可 以 包含 多 个 工作 表 ， 所 以 如 
果 你 不 清楚 这 些 工作 表 中 的 内 容 ， 那 么 在 开始 处 理工 作 表 之 前 ， 获 取 一 些 关 于 工作 表 的 摘 
述 性 信息 则 是 非常 重要 的 。 
如 果 想 知道 一 个 文件 夹 中 工作 短 的 数量 ， 每 个 工作 短 中 工作 表 的 数量 ， 以 及 每 个 工作 表 中 
行 与 列 的 数量 ， 在 文本 编辑 器 中 输入 下 列 代码 ， 然 后 将 文件 保存 为 12excel_introspect_all_ 
workbooks.py: 






































1 #!/usr/bin/env python3 

2 import glob 

3 import os 

4 import sys 

5 from xlrd import open workbook 

6 input directory - sys.argv[1] 

7 workbook counter - 0 

8 for input file in glob.glob(os.path.join(input directory, '*.xls*')): 


9 workbook = open workbook(input file) 

10 print('Workbook: %s' % os.path.basename(input file)) 

11 print('Number of worksheets: %d' % workbook.nsheets) 

12 for worksheet in workbook.sheets(): 

13 print('Worksheet name:', worksheet.name, '\tRows:',\ 

14 worksheet.nrows, '\tColumns:', worksheet.ncols) 
15 workbook counter += 1 


16 print('Number of Excel workbooks: %d' % (workbook counter)) 
第 2 和 3 行 代码 分 别 导 入 Python 内 置 的 glob 模块 和 os 模块 ， 以 使 我 们 可 以 使 用 其 中 的 函 
数 识 别 和 解析 竺 处理 文件 的 路 径 名 。 
第 8 行 代码 使 用 Python 内 置 的 glob 模块 和 os 模块 创建 了 一 个 要 处 理 的 输入 文件 列表 ,者 
对 这 个 输入 文件 列表 应 用 for 循环 ， 这 行 代码 可 以 使 我 们 对 所 有 要 处 理 的 工作 短 进 行进 代 。 


第 10~14 行 代码 在 屏幕 上 打印 出 每 个 工作 短 的 信息 。 第 10 行 代码 打印 工作 短 的 名 称 。 第 
11 行 代码 打印 工作 竹中 工作 表 的 数量 。 第 13 和 14 行 代码 打印 出 工作 竹中 工作 表 的 名 称 和 
每 个 工作 表 中 行 与 列 的 数量 。 


要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 ; 
python 12excel introspect all workbooks.py "C:\Users\Clinton\Desktop" 


你 应 该 可 以 看 到 输出 被 打印 到 屏幕 上 ， 如 图 3-12 所 示 。 








TY 



































Bi Command Prompt 一 | 回 


Copyright (c) 2009 Microsoft Corporation. All rights reserved. 
IC:\Users\Clinton>cd Desktop 


ic: \Users\Clinton\Desktop>python 12excel introspect all workbooks.py "C:NUsersNClintonNDesktop" 
Workbook: sales, 2013.xlsx 
Number of worksheets: 3 
nam nuary. 2013 ROWS: Columns: 
O Columns: 
columns: 


january _2014 WS: Columns: 


february_2014 WS: Columns: 

name: march 2014 i columns: 
: sales_2015.x1sx 

worksheets: 3 

: january_20 WS! Columns: 

Teor Ua 0 Columns: 

Worksheet ct W 7 columns: 
Number of Ex Workpools 


Ic: \Users\Clinton\Desktop> 











x 








图 3-12; 处 理 多 个 工作 得 的 Python 脚本 的 输出 
































a: 7 行 和 5 列 )。 
当 你 对 要 处 理 的 文件 不 太 熟 悉 的 时 候 ， 打 印 出 文件 的 一 些 描述 性 信息 是 非常 有 用 的 。 






































输出 显示 ， 脚 本 处 理 了 3 个 工作 得， 还 打印 出 了 3 个 工作 短 的 名 称 (例如 : sales_2013.xls)、 
每 个 工作 得 中 3 个 工作 表 的 名 称 (例如 : january_2013) ， 以 及 每 个 工作 表 中 行 与 列 的 数量 


( 例 


知道 


了 文件 的 数量 以 及 每 个 文件 中 行 与 列 的 数量 ， 你 就 可 以 大 致 了 解 文件 处 理 任务 量 和 文件 内 


容 的 一 致 性 了 。 


3.5.2 MSP LIEBHERR 


1. 基础 Python 
要 使 用 基础 Python 将 多 个 工作 秒 





E 























所 有 工作 表 的 数据 垂直 连接 成 一 个 输出 文件 ， 在 文本 编 





辑 器 中 输入 下 列 代码 ， 然 后 将 文件 保存 为 13excel_concat_data_from_multiple_workbook.py : 








#!/usr/bin/env python3 

import glob 

import os 

import sys 

from datetime import date 

from xlrd import open_workbook, xldate_as_tuple 

from xlwt import Workbook 

input_folder = sys.argv[1] 

output_file = sys.argv[2] 

10 output_workbook = Workbook() 

11 output worksheet = output workbook.add sheet('all data all workbooks') 
12 data - [] 

13 first worksheet - True 

14 for input file in glob.glob(os.path.join(input folder, '*.xls*')): 
15 print os.path.basename(input file) 

16 with open workbook(input file) as workbook: 


\D 05-0014 U0 n2 H 
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17 for worksheet in workbook.sheets(): 


18 if first worksheet: 

19 header row = worksheet.row values(0) 

20 data.append(header row) 

21 first worksheet - False 

22 for row index in range(1,worksheet.nrows): 

23 row list - [] 

24 for column index in range(worksheet.ncols): 
25 cell value = worksheet.cell value 

26 (row index,column index) 

27 cell type = worksheet.cell_type\ 

28 (row index, column index) 

29 if cell type == 3: 

30 date cell = xldate as tuple| 

31 (cell value,workbook.datemode) 

32 date cell = date(*date cell[0:3])V 
33 .strftime( '%m/%d/%Y') 

34 row list.append(date cell) 

35 else: 

36 row list.append(cell value) 

37 data.append(row list) 

38 for list index, output list in enumerate(data): 

39 for element index, element in enumerate(output list): 

40 output worksheet.write(list index, element index, element) 


41 output workbook.save(output file) 


第 13 行 代码 创建 了 一 个 布尔 型 (就 是 True/False) 变量 first worksheet, FASE. 3| S& Ath 
理 的 第 一 个 工作 表 和 其 他 后 续 工 作 表 。 对 于 要 处 理 的 第 一 个 工作 表 ， 第 18 行 代 码 为 True， 
所 以 我 们 将 标题 行 追加 到 data 中 ， 然 后 将 first worksheet 设 为 False, 

对 于 第 一 个 工作 表 中 余下 的 数据 行 和 后 续 工作 表 中 的 所 有 行 ， 我 们 跳 过 标题 行 ， 处 理 数据 

行 。 因 为 第 22 行 代码 中 的 range 函数 不 是 从 0 开始 ， 而 是 从 1 开始 的 ， 所 以 我 们 知道 是 从 

第 二 行 开始 处 理 的 。 

要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 ; 
python 13excel concat data from multiple workbooks.py "C:\Users\Clinton\Desktop"\ 
output filesM3output.xls 

你 可 以 打开 输出 文件 13output.xls 查看 一 下 结果 。 

2. pandas 

pandas 提供 了 concat 函数 来 连接 数据 框 。 如 果 你 想 把 数据 框 一 个 一 个 地 垂直 堆 县 起 来 ， 那 

么 就 要 设置 参数 axts=0。 如 果 你 想 把 数据 框 一 个 一 个 地 平行 连接 起 来 ， 那 么 就 要 设置 参数 

axis=1。 此 外 ， 如 果 你 需要 基于 某 个 关键 字 列 连接 数据 框 ，pandas 中 的 merge 国 数 可 以 提 

供 类 似 SQL join 的 操作 (如 果 你 不 理解 这 个 ， 没 有 关系 ， 接 下 来 的 第 4 章 中 会 有 更 多 关于 

数据 库 的 介绍 ) 。 

要 使 用 pandas 将 多 个 工作 筹 中 所 有 工作 表 的 数据 垂直 连接 成 一 个 输出 文件 ， 在 文本 编辑 器 

中 输入 下 列 代码 ， 然 后 将 文件 保存 为 pandas_concat_data_from_multiple_workbook.py: 


#!/usr/bin/env python3 
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import pandas as pd 
import glob 

import os 

import sys 

input path = sys.argv[1] 
output file - sys.argv[2] 


all workbooks = glob.glob(os.path.join(input path,'*.xls*')) 


data frames - [] 
for workbook in all workbooks: 


all worksheets = pd.read excel(workbook, sheetname=None, index col-None) 


for worksheet name, data in all worksheets. 


data frames.append(data) 
all data concatenated - pd.concat(data frames, 
writer - pd.ExcelWriter(output file) 


items(): 


axis=0, ignore_index=True) 


all_data_concatenated.to_excel(writer, sheet_name='all_data_all_workbooks',\ 


index=False) 
writer .save() 


要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 


EET 





python pandas concat data from multiple workbooks.py "C:\Users\CLlinton\Desktop"\ 


output filesWMpandas output.xls 


你 可 以 打开 输出 文件 pandas_output.xls 查看 一 下 结果 。 


3.5.3 ”为 每 个 工作 敌 和 工作 表 计 算 


1. 基础 Python 


总 数 和 均值 


要 使 用 基础 Python 为 多 个 工作 敌 计 算 工 作 表 级 别 和 工作 憩 级 别 的 统计 量 ， 在 文本 编辑 器 中 
输入 下 列 代码 ， 然 后 将 文件 保存 为 14excel_sum_average_multiple_workbook.py: 











1 #!/usr/bin/env python3 

2 import glob 

3 import os 

4 import sys 

5 from datetime import date 

6 from xlrd import open workbook, xldate as tuple 
7 from xlwt import Workbook 

8 input folder - sys.argv[1] 

9 output file - sys.argv[2] 


10 output workbook - Workbook() 

11 output worksheet - output workbook.add sheet('sums and averages') 

12 all data - [] 

13 sales column index - 3 

14 header = ['workbook', 'worksheet', 'worksheet total', 'worksheet_average',\ 
15 'workbook total', 'workbook average'] 

16 all data.append(header) 

17 for input file in glob.glob(os.path.join(input folder, '*.xls*')): 


18 with open workbook(input file) as workbook: 
19 list of totals - [] 

20 list of numbers - [] 

21 workbook output - [] 

22 for worksheet in workbook.sheets(): 

23 total sales - 0 
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24 number of sales = 0 

25 worksheet list - [] 

26 worksheet list.append(os.path.basename(input file)) 

27 worksheet list.append(worksheet.name) 

28 for row index in range(1,worksheet.nrows): 

29 try: 

30 total sales += float(str(worksheet.cell valueV 
31 (row index,sales column index))V 

32 .strip('$').replace(',','')) 

33 number of sales += 1. 

34 except: 

35 total sales += 0. 

36 number of sales += 0. 

37 average sales = '%.2f' % (total sales / number of sales) 
38 worksheet list.append(total sales) 

39 worksheet list.append(float(average sales)) 

40 list of totals.append(total sales) 

41 list of numbers.append(float(number of sales)) 

42 workbook output.append(worksheet list) 

43 workbook total - sum(list of totals) 

44 workbook average - sum(list of totals)/sum(list of numbers) 
45 for list element in workbook output: 

46 list element.append(workbook total) 

47 list element.append(workbook average) 

48 all data.extend(workbook output) 

49 

50 for list index, output list in enumerate(all data): 

51 for element index, element in enumerate(output list): 

52 output worksheet.write(list index, element index, element) 


53 output workbook.save(output file) 


第 12 行 代码 创建 了 一 个 空 列表 aLL_data， 用 来 保存 要 写 和 人 输出 文件 的 所 有 行 。 第 13 行 代 





码 创建 了 一 个 变量 sales column index 





， 保 存 Sale Amount 列 的 索引 值 





o 








第 14 行 代码 为 输出 文件 创建 了 一 个 列 标题 列表 ， 并 使 用 第 16 行 代码 将 其 追加 到 atLL_ 





data 中 。 








在 第 19、20 和 21 行 代码 中 ， 分 别 创建 了 3 个 列表 。list_of_totals 用 来 保存 工作 得 中 所 
有 工作 表 的 销售 额 总 计 。 同 样 ，List_of_numbers 用 来 保存 工作 短 的 所 有 工作 表 中 用 来 计算 


总 销售 额 的 销售 额 数据 个 数 。 第 三 个 允 
所 有 输出 列表 。 











| 表 ，workbook_output， 用 来 保存 要 写 入 输出 文件 的 





第 25 行 代 码 创 建 了 一 个 列表 worksheet_list， 用 来 保存 要 保留 的 所 有 工作 表 的 信息 。 在 
第 26 和 27 行 代码 中 ， 将 工作 短 名 称 和 工作 表 名 称 追 加 到 worksheet list 中 。 同 样 ， 在 第 
38 和 39 行 代码 中 ， 将 销售 额 总 计 和 均值 追加 到 worksheet list 中 。 在 第 42 行 代码 中 ， 将 


worksheet list 追加 到 workbook outpu 





t 中 ， 在 工作 敌 级 别 保 存 信息 。 


在 第 40 和 41 行 代 码 中 ， 将 工作 表 的 销售 额 总 计 和 销售 额 数据 个 数 分 别 追 加 到 List_of_ 
totals 和 list. of numbers 中 ， 这 样 我 们 可 以 对 所 有 工作 表 保 存 这 些 值 。 在 第 43 和 44 行 
代码 中 ， 使 用 这 两 个 列表 计算 出 工作 短 的 销售 额 总 计 和 销售 额 均 值 。 


在 第 45~47 行 代 码 中 ， 我 们 在 workbook output 的 各 个 列表 之 间 和 迭代 (每 个 工作 矫 有 3 个 
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列表 中 。 





append, all data 


要 运行 这 个 脚本 ， 


列表 ， 因 为 每 个 工作 短 有 3 个 工作 表 )， 并 将 工作 敌 级 别 的 销售 额 总 计 和 均值 追加 到 每 个 








当 获 得 了 所 有 要 为 工作 得 保留 的 信息 之 后 (就 是 3 个 列表 ， 每 个 工作 表 有 一 个 列表 ) ， 就 
将 这 些 列表 扩 展 到 all_data 中 。 我 们 使 用 extend， 不 是 append, LJ fii workbook output 
中 的 每 个 列表 都 会 成 为 aLL_data 中 的 一 个 独立 元 素 。 这 样 的 话 ， 在 处 理 完 所 有 工作 短 之 
Ja, all data 就 是 一 个 具有 9 个 元 素 的 列表 ， 每 个 元 素 都 是 一 个 列表 。 否 则 ， 如 果 使 用 























中 就 会 只 有 3 个 元 素 ， 每 个 元 素 都 是 一 个 列表 的 列表 。 
在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 : 





Iz] 





python 14excel sum average multiple workbooks.py "C:\Users\Clinton\Desktop"\ 
output filesMi4output.xls 


你 可 以 打开 输出 文件 14output.xls 查看 一 下 结果 。 


2. pandas 


pandas 可 以 直接 在 多 个 工作 短 之 间 选 代 ， 并 可 以 同时 在 工作 敌 级 别 和 工作 表 级 别 计算 统 














计量 。 在 下 面 的 肌 














[本 中 ， 为 工作 憩 中 的 每 个 工作 表 计 算 统 计量 ， 然 后 将 结果 连接 成 一 个 数 


据 框 。 接 下 来 ， 计 算 工 作 憩 级别 的 统计 量 ， 将 它们 转换 成 一 个 数据 框 ， 然 后 通过 基于 工作 
禾 名 称 的 左 连接 将 两 个 数据 框 合并 在 一 起 ， 并 将 结果 数据 框 添 加 到 一 个 列表 中 。 当 所 有 工 
作 短 级 别 的 数据 框 都 进入 列表 之 后 ， 将 这 些 数据 框 连接 成 一 个 独立 数据 框 ， 并 写 入 输出 文 





件 。 











要 使 用 pandas 计算 工作 表 级 别 和 工作 短 级 别 的 统计 量 ， 在 文本 编辑 器 中 输入 下 列 代码 ， 然 


后 将 文件 保存 为 p 


andas sum average multiple workbook.py: 





#!/usr/bin/env python3 
import pandas as pd 


import glob 
import os 
import sys 
input path - 


sys.argv[1] 


output file - sys.argv[2] 
all workbooks = glob.glob(os.path.join(input path,'*.xls*')) 
data frames - [] 


for workbook 


in all workbooks: 


all worksheets = pd.read excel(workbook, sheetname=None, index col-None) 
workbook total sales - [] 
workbook number of sales - [] 
worksheet data frames - [] 
worksheets data frame - None 
workbook data frame - None 
for worksheet name, data in all worksheets.items(): 
total sales = pd.DataFrame([float(str(value).strip('$').replace(\ 


too 


for 


3 PADD) 


value in data.loc[:, 'Sale Amount']]).sum() 


number of sales - len(data.loc[:, 'Sale Amount']) 
average sales - pd.DataFrame(total sales / number of sales) 


workbook total sales.append(total sales) 
workbook number of sales.append(number of sales) 
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data = {'workbook': os.path.basename(workbook), 
'worksheet': worksheet name, 
'worksheet total': total sales, 
'worksheet average': average sales] 


worksheet data frames.append(pd.DataFrame(data, V 

columns-['workbook', 'worksheet', V 

'worksheet total', 'worksheet average'])) 
worksheets data frame = pd.concat(\ 
worksheet data frames, axis-0, ignore index-True) 
workbook total - pd.DataFrame(workbook total sales).sum() 
workbook total number of sales = pd.DataFrame(\ 
workbook number of sales).sum() 
workbook average = pd.DataFrame(\ 
workbook total / workbook total number of sales) 


workbook stats = {'workbook': os.path.basename(workbook), 
'workbook total': workbook total, 
'workbook average': workbook average) 
workbook stats = pd.DataFrame(workbook stats, columns=\ 
['workbook', 'workbook total', 'workbook average']) 
workbook data frame - pd.merge(worksheets data frame, workbook stats, V 
on='workbook', howz'left') 
data frames.append(workbook data frame) 
all data concatenated - pd.concat(data frames, axis-0, ignore index-True) 
writer - pd.ExcelWriter(output file) 
all data concatenated.to excel(writer, sheet name-'sums and averages', \ 
index-False) 
writer.save() 


要 运行 这 个 脚本 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 : 


python pandas sum average multiple workbooks.py "C:\Users\Clinton\Desktop"\ 
output filesMpandas output.xls 


你 可 以 打开 输出 文件 pandas output.xls 查看 一 下 结果 。 


本 章 介 绍 了 很 多 基础 性 操作 ， 包 括 读 取 和 分 析 Excel 工作 得 、 在 工作 表 中 浏览 行 与 列 、 处 
里 多 个 Excel 工作 表 、 处 理 多 个 Excel TE, URIZ Excel 工作 表 和 工作 短 计 算 统计 
量 的 方法 。 如 果 一 直 跟 随 本 章 内 容 练习 示例 代码 ， 你 应 该 完成 了 14 个 新 的 Python 脚本 | 


练习 本 章 中 示例 代码 的 最 大 收获 是 ， 你 很 好 地 掌握 了 浏览 和 处 理 Excel 文件 的 技术 ， 而 
Excel 文件 是 商业 过 程 中 最 常用 的 一 种 文件 。 而 且 ， 因 为 很 多 商业 机 构 将 数据 保存 在 Excel 
工作 矫 中 ， 所 以 你 现在 已 经 掌握 了 处 理 这 些 工 作 矫 中 数据 的 一 系列 方法 ， 无 论 工作 憩 的 数 
量 和 体积 有 多 大 ， 也 无 论 每 个 工作 夭 中 有 多 少 工作 表 ， 你 都 可 以 使 用 计算 机 数据 处 理 的 强 
大 能 力 来 自动 化 和 规模 化 地 处 理 和 分 析 Excel 工作 矫 中 的 各 种 数据 。 


我 们 要 面 对 的 下 一 个 数据 源 是 数据 库 。 因 为 数据 库 是 一 种 非常 常用 的 数据 存储 ， 所 以 知道 
如 何 访问 其 中 的 数据 是 非常 重要 的 。 只 要 知道 了 如 何 访问 其 中 的 数据 ， 你 就 可 以 像 处 理 
CSV 文件 和 Excel 文件 一 样 ， 同 样 以 一 行 接 一 行 的 方式 来 处 理 这 些 数据 。 掌 握 了 第 2 章 和 
本 章 中 的 示例 代码 之 后 ， 你 已 经 完全 做 好 了 处 理 数据 库 中 数据 的 准备 。 
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3.6 ”本 章 练习 


(1) 对 根据 具体 条 件 、 集 合 和 正则 表达 式 来 秘 选 行 数据 的 一 个 脚本 进行 修改 ， 将 与 示例 代码 
中 不 同 的 一 组 数据 打印 出 来 并 写 入 输出 文件 。 

(D 对 根据 索引 值 或 列 标题 来 筛选 列 数据 的 一 个 脚本 进行 修改 ， 将 与 示例 代码 中 不 同 的 一 组 
数据 打印 出 来 并 写 入 输出 文件 。 

(3) 创建 一 个 新 的 Python 脚本 ， 将 筛选 行 或 列 的 某 个 脚本 中 的 代码 与 从 多 个 工作 季 中 连接 

数据 的 某 个 脚本 中 的 代码 组 合 起 来 ， 生 成 一 个 新 的 输出 文件 ， 其 中 包含 来 自 于 多 个 工作 

夭 的 特定 行 与 特定 列 。 
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第 4 章 


数据 库 





与 电子 表格 一 样 ， 数 据 库 在 商业 中 的 应 用 也 非常 普遍 。 公 司 使 用 数据 库 保 存 客户 、 库 存 和 
雇员 数据 。 在 对 运营 、 销 售 和 财务 等 活动 的 跟踪 方面 ， 数 据 库 也 至 关 重要 。 与 简单 电子 表 
格 或 工作 禾 电 子 表 格 不 同 ， 数 据 库 中 的 表 是 互相 关联 的 ， 就 像 一 个 电子 表格 中 的 一 行 可 以 
和 另 一 个 电子 表格 中 的 一 行 或 一 列 关 联 起 来 一 样 。 我 们 给 出 一 个 标准 的 例子 ， 如 客户 数据 
(姓名 、 地 址 等 ) 可 以 〈 通 过 客户 ID 编号 ) 关联 到 “订单 ”电子 表格 中 的 一 行 ， 其 中 包含 
预订 的 物品 。 这 些 物品 又 可 以 关联 到 “供应 商 ” 电 子 表格 中 的 数据 ， 使 你 不 但 可 以 跟踪 并 
完成 订货 ， 还 可 以 进行 更 深层 次 的 分 析 。 虽 然 你 可 以 使 用 Python 对 CSV 文件 和 Excel X 
件 这 些 既 常用 又 重要 的 数据 源 进行 自动 化 和 规模 化 的 处 理 ， 而 且 和 掌握 了 处 理 这 些 文件 的 技 
能 不 论 从 学 习 的 角度 (可 以 学 习 通 用 的 编程 操作 ) 还 是 从 实用 的 角度 (大 量 商 业 数 据 保存 
在 这 些 类 型 的 文件 中 ) 都 非常 重要 ， 但是， 使 用 数据 库 却 可 以 将 计算 机 完成 任务 的 能 力 提 
高 成 千 上 万 倍 。 
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关系 数据 库 


本 章 将 要 讨论 关系 数据 库 (relational database) 和 关系 数据 库 管理 系统 (RDBMS), AX 
系数 据 库 中 ， 保 存 信息 的 表 由 表 间 定义 好 的 关系 相关 联 ， 例 如 ， 可 以 使 用 像 “订单 ID 编 
号 ”这 样 的 关键 字 将 客户 记录 和 与 产品 记录 、 运 输 记 录 等 关联 起 来 。 在 某 些 情况 下 (通常 
是 “大 数据 ”情况 下 )， 定 义 所 有 的 关系 对 运营 来 说 没 必要 ， 或 者 需要 太 多 的 计算 能 力 。 
这 样 就 出 现 了 非 关 系 型 数据 库 (non-relational database), ， 它 以 其 他 方式 存储 并 搜索 数据 。 
举例 来 说 ， 它 不 会 将 位 于 不 同 表 中 的 客户 记录 和 订单 记录 关联 起 来 ， 而 是 将 所 有 订单 顺 
序 存储 在 一 个 记录 中 ， 并 将 客户 数据 作为 订单 数据 的 一 个 子 集 。( 在 这 种 情况 下 ， 你 可 以 
节省 掉 在 另 一 个 表 中 寻找 客户 数据 的 开销 ， 但 付出 的 代价 是 ， 每 次 客户 新 增 一 个 订单 时 ， 
都 要 再 保存 一 份 客户 数据 副本 。) 本 书 虽 然 不 涉及 非 关 系 型 数据 库 ， 但 你 应 该 知道 ， 
(a) 它们 确实 存在 而 且 (b) 有 可 以 处 理 很 多 种 非 关 系 型 数据 库 中 数据 的 Python 模块 。 
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要 学 习 如 何 使 用 Python 同 数据 库 交 互 ， 首 先 你 要 有 个 数据 库 ， 并 且 数 据 库 中 要 有 一 张 充 满 
了 数据 的 表 。 如 果 你 还 没有 使 用 过 这 样 的 数据 库 和 数据 表 ， 那 么 这 就 是 你 需要 解决 的 主要 
问题 。 幸 运 的 是 ， 有 两 种 资源 可 供 选 择 ， 它 们 可 以 让 我 们 轻松 愉快 地 使 用 本 章 中 的 示例 开 
台 学 习 。 

首先 ，Python 有 个 内 置 模块 sqLite3， 它 可 以 使 我 们 创建 内 存 数 据 库 。 这 就 是 说 我 们 可 以 
使 用 Python 代码 直接 创建 一 个 数据 库 和 其 中 充满 数据 的 表 ， 不 用 下 载 安装 专门 的 数据 库 软 
件 。 在 本 章 的 前 半 部 分 ， 我 们 就 使 用 这 个 功能 快速 地 开始 本 章 的 学 习 ， 并 把 重点 放 在 与 数 
据 库 、 表 和 数据 的 交互 上 面 ， 而 不 用 考虑 如 何 下 载 和 安装 数据 库 。 

其 次 ， 你 可 能 已 经 使 用 过 MySQL, PostgreSQL 或 Oracle 这 样 的 常用 数据 库 系 统 。 这 些 数 
据 库 系统 的 开发 公司 已 经 使 这 些 系统 非常 易于 下 载 和 安装 了 。 尽 管 你 可 能 不 会 每 天 都 使 用 
数据 库 系 统 ， 但 是 它们 在 商业 中 的 应 用 却 非常 普遍 。 因 此 ， 熟 悉 一 些 常 用 的 数据 库 操作 ， 
并 知道 如 何 使 用 Python 来 完成 这 些 操 作对 你 来 说 是 非常 重要 的 。 在 本 章 的 后 半 部 分 ， 我 们 
要 下 载 并 安装 一 个 数据 库 系 统 ， 这 样 你 就 可 以 使 用 在 本 章 前 半 部 分 学 到 的 知识 ， 与 一 个 实 
际 数 据 库 系 统 进行 方便 地 交互 并 操作 其 中 的 数据 了 。 

































































什么 是 SQL 
你 会 发 现 本 章 使 用 的 多 数 模块 和 软件 的 名 称 中 部 有 “SQL 。SQL (通常 读 作 
“sequel”, RA A RH VE “es-queue-el”) 表示 结构 化 查询 语言 (Structured Query 
Language) ， 是 一 组 应 用 广泛 的 与 数据 库 进 行 交 互 的 命令 。SQL 的 版 本 很 多 ， 你 的 数据 
库 系 统 也 可 能 使 用 专门 的 命令 和 语法 ， 但 某 些 确定 的 操作 比如 SELECT, JOIN, INSERT 
$e UPDATE 对 所 有 版 本 都 是 通用 的 。 本 章 会 教 你 一 些 基础 知识 ， 包 括 完全 使 用 Python 
建立 一 个 数据 库 ， 以 及 使 用 SQL 从 数据 库 中 将 数据 输送 到 Python 代码 中 以 供 处 理 。 











4.1 Python 内 置 的 sqLite3 模 块 


正如 上 面 所 提 到 的 ， 我 们 使 用 Python 内 置 的 sqlite3 模块 直接 在 Python 代码 中 创建 一 个 
内 存 数据 库 以 及 充满 了 数据 的 表 ， 从 而 快速 开始 本 章 的 学 习 。 与 第 2 章 和 第 3 章 一 样 ， 第 
一 个 示例 的 重点 在 于 演示 如 何 对 SQL 查询 输出 的 行进 行 计数 。 在 任何 不 确定 你 的 查询 会 输 
出 多 少 行 的 情况 下 ， 这 个 功能 非常 重要 。 通 过 这 个 功能 ， 在 开始 工作 以 前 ， 你 可 以 知道 有 
多 少 行 数据 需要 处 理 。 这 个 示例 还 很 实用 ， 因 为 我 们 会 使 用 很 多 在 Python 中 与 数据 库 交 互 
相关 联 的 语法 ， 用 来 创建 数据 库 中 的 表 、 在 表 中 插入 数据 和 从 输出 中 获取 数据 并 对 行进 行 
计数 。 你 将 看 到 很 多 语法 会 在 本 章 的 示例 中 多 次 重复 出 现 。 


现在 就 开始 吧 。 要 创建 数据 库 中 的 表 、 在 表 中 插入 数据 ， 以 及 在 输出 中 获取 数据 并 对 行进 
行 计 数 ， 在 文本 编辑 器 中 输入 下 列 代码 ， 然 后 将 文件 保存 为 1db_count_rows.py: 


1 #!/usr/bin/env python3 
2 import sqlite3 

3 

4 # 创建 SQLite3 内 存 数据 库 
5 # 创建 带 有 4 个 属性 的 sales 表 





















































6 con = sqlite3.connect(':memory:') 

7 query = """CREATE TABLE sales 

8 (customer VARCHAR(20), 
9 product VARCHAR(40), 
10 amount FLOAT, 

11 date DATE);""" 

12 con.execute(query) 

13 con.commit() 


15 # 在 表 中 插入 几 行 数据 

16 data = [('Richard Lucas', 'Notepad', 2.50, '2014-01-02'), 

17 ('Jenny Kim', 'Binder', 4.15, '2014-01-15'), 

18 ('Svetlana Crow', 'Printer', 155.75, '2014-02-03'), 

19 ('Stephen Randolph', 'Computer', 679.40, '2014-02-20')] 
20 statement = "INSERT INTO sales VALUES(?, ?, ?, ?)" 

21 con.executemany(statement, data) 

22 con.commit() 








24 # 查询 saLes 表 
25 cursor = con.execute("SELECT * FROM sales") 
26 rows - cursor.fetchall() 


28 # 计算 查询 结果 中 行 的 数量 

29 row_counter = 0 

30 for row in rows: 

31 print(row) 

32 row counter += 1 

33 print('Number of rows: %d' % (row counter)) 


4-1, 42 和 图 43 分 别 展示 了 在 Anaconda Spyder, Notepad++ (Windows) 和 











TextWrangler (macOS) 中 编辑 脚本 的 界面 
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21 con.executemany(statement, data) UND] se ut 
pe 


22 con. commit () "lisse" 二 





yright", “credits” or "lic 
Anaconda is brought to you by Continuum Analytics. 
Please check out: http://continuum.io/thanks and https: //anaconda.org 





SELECT * FROM sales") 





28 # Count th 
29 row countei 
39 for row in rows: 
&31 print(row) 
432 row counter += 1 








三 | 加 | x% 
Sy 
GE count rov py 8x Ob epeasr sx 
a| LA 1 count rows.oy El E Souce (Conse =] object -H& 
1&l/usr/bin/env pythonà 
2import sqlite3 
B Here you con ge heb of any obiect by reso Cote front o, ether on 
Neb an o be shown automaticaly after wreng a eft parenthess nert to an 
Sec Vou cn eevee the behamor n Preferences > Object spect 
7query = """CREATE TABLE sales Mew to Soyder Read our itoral 
la 8 (customer VARCHAR(20), 
a 9 product VARCHAR(40), 
h10 amount FLOAT, 
lean date DATE);""" 
12 con.execute(query) 
13 con. commit() 
14 
155 Insert a fe into ble 
16data = [('Richard Lucas’, 'Notepad', 2.50, -— = 
jà 17 ('Jenny Kim’, 'Binder', 4.15, '2014-01-15'), |_objecinspecter_["Werabivepirer | His selon] 
18 (‘Svetlana Crow’, 'Printer', 155.75, onsale ITE BE 
19 ("Stephen Randolph', 'Computer', 679. m| S noni O [emen AE 
2@statement = “INSERT INTO sales VALUES(?, ?, ?, ?)” 


Python 2.7.10 [Anaconda 2.2.0 (64-bit)| (default, Sep 15 2015, 14:26:14) [MSC v.1500 64 bit 
n32 








la 33print('Number of rows: Xd' X (row counter)) Console | aaay iag | Python ronnie 











Permissions: 4  End-of-lines LF Encoding: UTF-8 ine; 4 Colmmi Memory: 39 % 





4-1, Anaconda Spyder 中 的 Python 脚本 1db_count_rows.py 
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[Ef CAUsers\Clinton\Desktop\1db_count_rows.py - Notepad++ Da n — — [Sur 3€ 
File Edit Search View Encoding Language Settings Macro Run Plugins Window ? 六 
| o scs | RI EU |o 8| 0363 [ 05 TT 国 回国 凡 | 加 回国 风量 | 马 

1  £!/usr/bin/env python3 

import sqlite3 

3 

4 # Create an in-memory SQLite3 database 

5 # Create a table called sales with four attributes 

6 con = sqlite3.connect (' :memory:') 

7 BEquery = """CREATE TABLE sales 

8 (customer VARCHAR (20), 

9 product VARCHAR (40), 

10 amount FLOAT, 

11 date DATE);""" 

12 con.execute (query) 

13  con.commit() 

14 

15 # Insert a few rows of data into the table 

16 Edata = [('Richard Lucas', 'Notepad', 2.50, '2014-01-02'), 

17 (‘Jenny Kim', 'Binder', 4.15, '2014-01-15'), 

18 ("Svetlana Crow', 'Printer', 155.75, '2014-02-03'), 

19 (‘stephen Randolph', 'Computer', 679.40, '2014-02-20')] 

20 statement = "INSERT INTO sales VALUES(?, ?, ?, ?)" 

21 | con.executemany (statement, data) 

22  con.commit() 

23 

24 # Query the sales table 

25 cursor = con.execute("SELECT * FROM sales") 

26 rows = cursor.fetchall() 

27 

28 # Count the number of rows in the output 

29 row counter = 0 

30 日 for row in rows: 

31 ] print (row) 

32 row counter += 1 

33 print('Number of rows: $d' $ (row_counter)) 



































Doks length:932 lines: 33 Ln:1 Col:1 Sel:010 UNIX ANSI INE ah 
图 4-2: Notepad++ (Windows) 中 的 Python 脚本 1db_count_rows.py 
一 - Lì tdb-count rows.py 
x» p rr. T, © File Pathy : -/Desktop/1db count rows.py 
* [3 tdb count rows.py $ (no symbol selected) $ 2? ERE] ant 
Wy/usr/bin/env python3 


import sqlite3 


1 
2 
3 
4. # Create an in-memory SQLite3 database 

5 + # Create a table called sales with four attributes 
68 | con = sqlite3.connect(':memory:’) 

t 

8 

9 








¥| query = ""CREATE TABLE sales 
(customer VARCHAR(20), 
product VARCHAR(40), 
10 amount FLOAT, 
“j= date DATE; 





12! | con.execute(query) 
13 | con.commit() 


15 # Insert a few rows of data into the table 
16lv data = [('Richard Lucas’, 'Notepad', 2.50, '2014-01-02", 


17 (Jenny Kim’, 'Binder', 4.15, '2014-01-15'), 
18 (Svetlana Crow’, 'Printer', 155.75, '2014-02-03'), 
19|- (Stephen Randolph’, ‘Computer’, 679.40, '2014-02-20")] 


20| | statement = "INSERT INTO sales VALUES(?, ?, ?, ?)" 
21 | con.executemany(statement, data) 
?2 | con.commit() 


24| | # Query the sales table 
25| | cursor = con.execute("SELECT * FROM sales") 
26 | rows = cursor.fetchall() 


28| | $t Count the number of rows in the output 

29 | row counter = 0 

307 for row in rows: 

31 print(row) 

32+ row_counter += 1 

33| | print((Number of rows: %d' 96 (row counter)) 





Pini Deos 





*|9-|m 川 Line T Coi 





[Python s|Unicode(UTF-8) ¢! Unix (LF) $| wf | Last saved: 10/11/15, 10:29:46 AM | [3 917 / 122/33 | 





B 4-3; TextWrangler (macOS) 中 的 Python 脚本 1db. count. rows.py 
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在 这 些 图 中 应 该 可 以 看 出 ， 与 处 理 CSV 文件 和 Excel 工作 短 不 同 ， 要 与 数据 库 进 行 交互 ， 
还 需要 学 习 一 些 新 的 语法 。 


第 2 行 代码 导入 sqlite3 模块 ， 它 提供 了 一 个 轻 量 级 的 基于 磁盘 的 数据 库 ， 不 需要 独立 的 
服务 器 进程 ， 并 且 人 允许 使 用 SQL 查询 语言 的 一 个 变种 去 访问 数据 库 。SQL 命令 在 本 章 的 
示例 代码 中 均 使 用 大 写字 母 表 示 。 因 为 本 章 是 关于 在 Python 中 与 数据 库 进行 交互 的 ， 所 
以 这 里 主要 介绍 了 通用 的 CRUD (也 就 是 Create、Read、Update 和 Delete， 即 创建 、 读 
取 、 更 新 和 删除 ) 数据 库 操 作 '。 示 例 代码 包括 创建 数据 库 和 表 (Create)、 向 表 中 插入 数据 
(Create)、 更 新 表 中 数据 (Update) 和 从 表 中 选择 特定 的 行 (Read)。 这 些 SQL 操作 在 各 
个 关系 数据 库 中 是 通用 的 。 


为 了 使 用 这 个 模块 ， 首 先 必须 创建 一 个 代表 数据 库 的 连接 对 象 。 第 6 行 代 码 创 建 了 连接 对 
象 con 来 代表 数据 库 。 在 这 个 示例 中 ， 我 使 用 专用 名 称 ' :memory:' 在 内 存 中 创建 了 一 个 数 
据 库 。 如 果 你 想 要 这 个 数据 库 持久 化 ， 就 需要 提供 另外 的 字符 串 。 例 如 ， 如 果 我 使 用 字符 
FH 'My_database.db' 或 'C:\Users\Clinton\Desktop\my_database.db'， 而 不 是 ':memory:', 
那么 数据 库 对 象 就 会 持久 保存 在 当前 目录 或 你 的 桌面 上 。 


第 7~11 行 代码 使 用 3 个 双 引 号 创建 了 一 个 多 行 字符 串 ， 并 将 这 个 字符 串 赋 给 变量 query, 
这 个 字符 串 是 一 个 SQL 命令 ， 可 以 在 数据 库 中 创建 一 个 名 为 sales WZ, sales 表 有 4 个 
属性 : customer, product, amount 和 date, customer 属性 是 一 个 变 长 字符 型 字段 ， 最 大 字 
符 数 为 20。product 属性 也 是 个 变 长 字符 型 字段 ， 最 大 字符 数 为 40。amount 属性 是 一 个 浮 
点 数 型 字段 。date 属性 是 一 个 日 期 型 字段 。 


第 12 行 代码 使 用 连接 对 象 的 execute() 方法 执行 包含 在 变量 query 中 的 SQL 命令 ， 在 内 
存 数 据 库 中 创建 sales 表 。 


第 13 行 代码 使 用 连接 对 象 的 commit() 方法 将 修改 提交 (也 就 是 保存 ) 到 数据 库 。 当 你 对 
数据 库 做 出 修改 时 ， 必 须 使 用 commit() 方法 来 保存 你 的 修改 ， 否 则 ， 这 种 修改 就 不 会 保存 
到 数据 库 中 。 


第 16 行 代码 创建 了 一 个 元 组 列表 ， 并 将 这 个 列表 赋 给 变量 data。 列 表 中 的 每 个 元 素 都 是 
一 个 包含 4 个 值 的 元 组 : 3 个 字符 串 和 1 个 浮 点 数 。 这 4 个 值 按 位 置 对 应 了 表 的 4 个 属性 
(就 是 表 中 的 4 列 )。 还 有 ， 每 个 元 组 包含 了 表 中 的 一 行 数据 。 因 为 列表 包含 4 个 元 组 ， 所 
以 它 包 含 了 表 中 的 4 行 数据 。 

第 20 行 代 码 与 第 7 行 代码 类 似 ， 创 建 了 一 个 字符 串 并 将 其 赋 给 变量 statement。 因 为 这 个 
字符 串 可 以 写 在 一 行 中 ， 所 以 包含 在 一 对 双 引 号 中 ， 不 像 在 第 7 行 代 码 中 ， 要 使 用 一 对 3 
个 双 引 号 来 表示 多 行 字 符 串 。 这 行 代码 中 的 字符 串 是 另 一 个 SQL 命令 ， 是 一 个 INSERT 18 
句 ， 可 以 将 data 中 的 数据 行 插入 sales 表 。 当 你 第 一 次 看 到 这 行 代码 时 ， 会 很 想 知道 问号 
(2) 的 作用 。 问 号 在 这 里 用 作 占 位 符 ， 表 示 你 想 在 SQL 命令 中 使 用 的 值 。 然 后 ， 在 连接 
对 象 的 execute() 或 executemany() 方法 中 ， 你 需要 提供 一 个 包含 4 个 值 的 元 组 ,元 组 中 
的 值 会 按 位 置 替换 到 SQL 命令 中 。 相 对 于 使 用 字符 串 操 作 组 装 SQL 命令 的 方法 ， 这 种 参 






































































































































{È 1: 在 http://en.wikipedia.org/wiki/Create, read, update_and_delete 这 个 网 址 你 可 以 学 到 更 多 关于 CRUD 操 
作 的 知识 。 
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数 替换 的 方法 可 以 使 你 的 代码 不 易 受 到 SQL 注入 攻击 *， 这 种 攻击 确实 有 害 于 我 们 的 系统 。 


第 21 行 代码 使 用 连接 对 象 的 executemany() 方法 为 data 中 的 每 个 数据 元 组 执行 变量 
statement 中 的 SQL 命令 。 因 为 data 中 有 4 个 数据 元 组 ， 所 以 这 个 executemany() 方法 执 
行 4 次 INSERT 语句 ， 高 效率 地 将 4 行 数据 插入 sales 表 。 

请 记 住 ， 在 介绍 第 13 行 代码 时 我 们 强调 过 ， 当 你 对 数据 库 做 出 修改 后 ， 必 须 使 用 
commit() 方法 ， 否 则 你 的 修改 就 不 会 保存 到 数据 库 中 。 将 4 行 数据 插入 sales 表 肯 定 是 对 
数据 库 进 行 了 修改 ， 所 以 在 第 22 行 代码 中 ， 又 一 次 使 用 连接 对 象 的 commit() 方法 将 修改 
保存 到 数据 库 。 


现在 我 们 的 内 存 数 据 库 中 有 一 个 sales 表 ， 表 中 有 4 行 数 据 ， 下 面 学 习 一 下 如 何 从 数 
据 库 的 表 中 提取 数据 。 第 25 行 代码 使 用 连接 对 象 的 executeO 方法 运行 一 条 SQL 命 
令 ， 并 将 命令 结果 赋 给 一 个 光标 对 象 cursor。 光 标 对 象 有 若干 方法 ， 例 如 ，execute、 
executemany、fetchone、fetchmany 和 fetchaLL。 因 为 经 常 需 要 查看 或 处 理 在 execute() 
方法 中 运行 的 SQL 命令 的 全 部 结果 ， 所 以 我 们 通常 使 用 fetchall() 方法 取出 (返回 ) 
结果 集中 的 所 有 行 。 

第 26 行 代码 执行 了 fetchall() 方法 ， 使 用 光标 对 象 的 这 个 方法 返回 在 第 25 行 代 码 中 执行 
的 SQL 命令 的 结果 集中 的 所 有 行 ， 并 将 这 些 行 赋 给 列表 变量 rows。 这 样 ， 变 量 rows 就 是 
包含 了 所 有 来 自 于 第 25 行 代码 中 的 SQL 命令 的 数据 行 的 列表 。 每 行 数据 都 是 一 个 元 组 ， 
所 以 rows 是 一 个 元 组 列表 。 在 这 种 情况 下 ， 因 为 我 们 已 知 sales 表 中 包含 4 行 数 据 ， 并 且 
SQL 命令 从 sales 表 中 选择 所 有 的 行 ， 所 以 rows 是 一 个 含有 4 个 元 组 的 列表 。 


最 后 ， 在 第 29~33 行 代码 中 ， 又 回 到 了 熟悉 的 基础 操作 ， 创 建 了 一 个 变量 row counter 来 
计算 rows 中 行 的 数量 ， 创 建 了 一 个 for 循环 在 rows 的 行 中 迭代 ， 对 于 rows 中 的 每 一 行 ， 
使 row counter 增加 1， 结 果 ， 当 for 循环 结束 了 在 rows TAT PAAR Za, EMS 
行 窗口 (或 终端 窗口 ) 中 打印 出 字符 串 Number of rows: 和 row_counter 中 的 值 。 正 如 之 
前 说 过 的 ， 我 们 希望 rows 中 有 4 行 数据 。 

要 看 看 这 个 Python 脚本 的 实际 运行 情况 ， 根 据 不 同 操作 系统 ， 在 命令 行 中 输入 下 面 的 一 个 
命令 ， 然 后 按 回 车 键 。 


e Windows 操作 系统 
python 1db_count_rows.py 

















































































































。 macOS 操作 系统 


chmod +x 1db count rows.py 
./1db count rows.py 


你 可 以 看 到 输出 被 打印 到 屏幕 上 ， 如 图 4-4 (Windows 系统 ) 或 图 4-5 (macos 系统 ) 所 示 。 
























































注 2: SQL 注入 攻击 是 一 种 恶意 SQL 语句 ， 攻 击 者 使 用 它 来 获取 私人 信息 或 损坏 数据 存储 与 应 用 程序 。 要 
获取 更 多 关于 SQL 注入 攻击 的 信息 ， 请 参考 http://en.wikipedia.org/wiki/SQL_injection。 
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E Command Prompt 


ic: \Users\Clinton>cd Desktop 


Ic: \Users\Clinton\Desktop>python 1db count rows.py 
(u'Richard Lucas', u'Notepad', 2.5, u'2014-01-02) 
(u'Jenny Kim', u'Binder', 4.15, u'2014-01-15') 
(u'Svetlana Crow’, u'Printer’, 155.75, u'2 

(u'Stephen Randolph’, u'Computer', 679.4, u'2014-02-2 
Number of rows: 4 


Ic: \Users\Clinton\Desktop> 


All rights reserved. 





0") 




















4-4; Windows 系统 上 1db count rows.py 的 输出 , 创建 SQLite3 数据 库 和 表 , 向 表 中 插入 4 行 数 


据 ， 在 表 中 查询 所 有 数据 ， 并 将 结果 打印 在 屏幕 上 





e ) 1. bash 
clinton-mba:~ clinton$ cd Desktop/ 

clinton-mba:Desktop clinton$ chmod «x 1db count. rows.py 
clinton-mba:Desktop clinton$ ./1db count rows.py 
C(u'Richard Lucas', u'Notepad', 2.5, u'2014-01-02') 
Cu'Jenny Kim', u'Binder’, 4.15, u'2014-@1-15') 
(u'Svetlana Crow’, u'Printer', 155.75, u'2014-02-03') 


Cu'Stephen Randolph', u'Computer', 679.4, u'2014-02-20') 
Number of rows: 4 
clinton-mba:Desktop clinton$ | 














4-5, macOS 系统 上 1db_count_rows.py 的 输出 





输出 显示 ，sales 表 中 有 4 条 记录 。 扩 展 一 下 ， 和 输出 还 可 以 显 
创建 了 表 sales、 在 表 中 添加 了 4 条 数据 、 从 表 中 取出 所 有 行 ， 















































示 我 们 创建 了 内 存 数据 库 、 
以 及 计算 输出 行 的 数量 。 














现在 你 已 经 掌握 了 一 些 基础 操作 ， 包 括 创 建 内 存 数据 库 、 创 建 表 、 向 表 中 加 载 数据 ， 以 及 
从 表 中 读 取 数 据 。 下 面 学 习 如 何 使 用 CSV. 文件 向 表 中 添加 数据 和 更 新 表 中 数据 ， 扩 展 一 














下 你 的 数据 库 操 作 能 


4.1.1 向 表 中 插入 新 记录 

















前 面 的 示例 代码 介绍 了 向 表 中 加 载 数据 的 基本 操作 ， 但 是 这 个 示例 有 个 严重 的 局 限 性 ， 就 





























是 需要 将 要 加 载 到 表 中 的 数据 手写 到 代码 中 。 如 果 我 们 要 向 表 








:加 载 10 000 条 记录 ， 每 条 








记录 有 20~30 个 字段 ， 那 将 如 何 处 理 ? 无 需 多 说 ， 手 动 输入 数 





不 具有 扩展 性 。 
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在 很 多 情况 下 ， 需 要 加 载 到 数据 表 中 的 数据 或 者 是 一 个 数据 库 查 询 的 结果 ， 或 者 是 保存 在 
一 个 或 多 个 Excel 文件 或 CSV 文件 中 的 数据 。 因 
库 查 询 结果 导出 为 CSV 文件 非常 容易 ， 并 且 我 们 已 经 学 习 了 如 何 处 理 Excel 文件 和 CSV 














为 对 于 多 数 数据 库 系 统 来 说 ， 将 一 个 数据 


文件 ， 所 以 现在 再 学 习 另 外 一 种 数据 加 载 方式 ， 也 就 是 如 何 从 CSV. 格式 的 输入 文件 将 数 
据 批量 地 加 载 到 数据 库 的 表 中 。 
让 我 们 创建 一 个 新 的 Python 脚本 。 这 个 脚本 将 创建 一 个 数据 表 ， 向 表 中 插入 CSV 文件 中 
的 数据 ， 然 后 展示 表 中 的 数据 。 其 中 的 第 三 个 步骤 ， 即 在 命令 行 窗口 或 终端 窗口 打印 数 
据 ， 不 是 必须 的 (而 且 如 果 你 加 载 了 儿 千 条 记录 的 话 ， 我 也 不 建议 将 记录 打印 在 窗口 中 )， 























我 之 所 以 在 示例 中 包括 了 这 个 步骤 ， 是 想 演 示 一 种 不 指定 单独 的 列 索引 ， 打 印 出 每 条 记录 
中 所 有 列 的 方法 (也 就 是 说 ， 这 种 语法 可 以 扩展 到 任意 数目 的 列 )。 下 面 开始 操作 ， 在 文 
本 编辑 器 中 输入 下 列 代码 ， 然 后 将 文件 保存 为 2db_insert_row.py: 


co -4o0U1 3» 0 NJ FH 


Ko) 





#!/usr/bin/env python3 
import csv 

import sqlite3 

import sys 

# CSV 输 入 文件 的 路 径 和 文件 名 
input file = sys.argv[1] 

# 创建 SQLite3 内 存 数据 库 
# 创建 带 有 5 个 属性 的 SuppLiers 表 

con = sqlite3.connect('Suppliers.db') 

c = con.cursor() 

create table - """CREATE TABLE IF NOT EXISTS Suppliers 

(Supplier Name VARCHAR(20), 

Invoice Number VARCHAR(20), 

Part Number VARCHAR(20), 

Cost FLOAT, 

Purchase Date DATE);""" 
c.execute(create table) 
con.commit() 

# 读 取 CSV 文 件 
# 向 Suppliers 表 中 插入 数据 
file reader = csv.reader(open(input file, 'r'), delimiter=',') 
header = next(file reader, None) 
for row in file reader: 
data - [] 
for column index in range(len(header)): 
data.append(row[column index]) 
print(data) 
c.execute("INSERT INTO Suppliers VALUES (?, ?, ?, ?, ?);", data) 
con.commit() 
print('') 
# 查询 Suppliers 表 
output = c.execute("SELECT * FROM Suppliers") 
rows = output.fetchall() 
for row in rows: 
output - [] 
for column index in range(len(row)): 
output.append(str(row[column index])) 
print(output) 




















这 个 脚本 和 第 2 章 中 的 脚本 一 样 ， 依 赖 于 csv 模块 和 sys 模块 。 第 2 行 代码 导入 csv Tz 
块 ， 以 使 我 们 使 用 其 中 的 函数 读 取 和 分 析 CS V. 格式 的 输入 文件 。 第 4 行 代码 导入 sys 模 
块 ， 这 样 我 们 就 可 以 在 命令 行 中 提供 一 个 文件 的 路 径 和 名 称 供 脚 本 使 用 。 第 3 行 代码 导 
入 sqlite 模块 ， 我 们 可 以 使 用 其 中 的 方法 创建 简单 的 本 地 数据 库 和 数据 表 ， 也 可 以 执行 
SQL 查询 。 
第 6 行 代码 使 用 sys 模块 在 命令 行 中 读 取 文 件 的 路 径 和 名 称 ， 并 将 这 个 值 赋 给 变量 input 
file, 


第 9 行 代码 为 一 个 简单 的 本 地 数据 库 Suppliers.db 创建 连接 。 我 提供 了 一 个 数据 库 名 称 ， 
而 不 使 用 专门 的 关键 字 ':memory:' ， 来 演示 如 何 创建 一 个 持久 化 数据 库 ， 当 你 重启 计算 
机 时 ， 这 个 数据 库 不 会 被 删除 。 因 为 你 要 把 这 个 脚本 保存 在 桌面 上 ， 所 以 Suppliers.db 
也 要 保存 在 桌面 上 。 如 果 你 想 将 数据 库 保存 在 其 他 位 置 ， 可 以 选择 一 个 路 径 ， 比 如 'C:\ 
Users\<Your Name>\Documents\Supplier.db'， 用 来 代 赫 'Suppliers.db', 


第 10-18 行 代码 创建 了 一 个 光标 ， 以 及 一 个 多 行 SQL 语句 ， 用 来 创建 一 个 具有 5 个 列 属 
性 的 数据 表 Suppliers。 执 行 这 条 SQL 语句 ， 并 将 修改 提交 到 数据 库 。 


第 21-29 行 代码 从 CSV 格式 的 输入 文件 中 读 取 要 加 载 到 数据 库 中 数据 ， 并 对 输入 文件 中 
的 每 行 数据 执行 一 条 SQL 语句 ， 将 数据 插入 到 数据 库 的 表 中 。 第 21 行 代 码 使 用 csv 模块 
Ol file reader 对 象 。 第 22 行 代码 使 用 nextO 方法 从 输入 文件 中 读 入 第 一 行 ， 也 就 是 
标题 行 ， 然 后 将 其 赋 给 变量 header。 第 23 行 代码 创建 了 一 个 for 循环 ， 在 输入 文件 的 所 
有 数据 行 之 间 循 环 。 第 24 行 代 码 创建 了 一 个 空 列表 变量 data。 对 于 输入 中 的 每 一 行 ， 
用 行 中 的 数据 去 填充 data， 这 些 数据 将 在 第 28 行 代码 中 的 INSERT 语句 中 使 用 。 第 25 
行 代码 创建 了 一 个 for 循环 ， 在 每 行 数据 的 各 个 列 之 间 循 环 。 第 26 行 代码 通过 列表 的 
append() 方法 使 用 输入 文件 这 一 行 中 所 有 的 数据 去 填充 data。 第 27 行 代码 在 命令 行 窗 
口 或 终端 窗口 中 打印 出 追加 到 data 中 的 这 行 数据 。 请 注意 缩 进 。 第 27 行 代码 的 缩 进 是 
在 外 部 for 循环 之 下 ， 不 是 在 内 部 for 循环 之 下 的 ， 所 以 它 是 对 于 输入 文件 中 的 每 一 行 
来 执行 ， 而 不 是 对 于 输入 文件 中 的 每 一 行 和 每 一 列 去 执行 。 这 一 行 有 助 于 调试 脚本 ， 但 
是 一 旦 你 确定 代码 能 够 正确 运行 ， 就 可 以 将 这 行 代码 删除 或 者 注释 掉 ， 这 样 在 屏幕 上 就 
不 会 打印 出 过 多 的 输出 。 

第 28 行 代码 是 实际 将 每 行 数 据 加 载 到 数据 表 中 的 代码 。 这 行 代码 使 用 光标 对 象 的 
execute() 方法 执行 一 条 INSERT 语句 ， 将 一 行 数据 插入 到 表 Suppliers 中 。 问 号 ? 是 要 插 
入 的 每 个 实际 值 的 占 位 符 。 问 号 的 数量 对 应 着 输入 文件 中 列 的 数量 ， 它 们 都 对 应 着 数据 表 
中 列 的 数量 。 而 且 ， 输 入 文件 中 列 的 顺序 也 要 对 应 数据 表 中 列 的 顺序 。 要 替换 到 问号 位 置 
的 值 来 自 于 列表 data， 这 个 列表 要 放 在 execute() 语句 中 逗号 的 后 面 。 因 为 data 是 使 用 
输入 文件 中 的 每 行 数据 填充 的 ， 而 且 INSERT 语句 也 是 对 于 输入 文件 中 的 每 行 数据 执行 的 ， 
所 以 这 些 代 码 可 以 高 效 地 从 输入 文件 中 读 取 数据 行 ， 并 把 这 些 数据 行 加 载 到 数据 表 中 。 最 
后 ， 第 29 行 代码 是 另 一 个 commit 语句 ， 将 修改 提交 到 数据 库 。 

第 32-38 行 代码 演示 了 如 何 从 数据 表 Suppliers 中 选择 所 有 数据 ， 并 将 输出 打印 到 命令 行 
窗口 或 者 终端 窗口 。 第 32 和 33 行 代码 执行 一 条 SQL 语句 ， 从 Suppliers 表 中 选择 所 有 数 
据 ， 并 将 “output” 中 的 所 有 行 读 入 变量 “rows”。 第 34 行 代码 创建 了 一 个 for 循环 ， 在 
















































































































































































“rows” 的 每 一 行 中 循环 。 第 36 行 代码 创建 了 一 个 for 循环 ， 在 每 行 的 各 个 列 之 间 循 环 。 
第 37 行 代码 将 每 列 中 的 值 追加 到 一 个 名 为 “output ”的 列表 中 。 最 后 ， 第 38 行 代 码 中 的 
print 语句 确保 输出 中 的 每 一 行 都 被 打印 到 一 个 新 行 中 〈 请 注意 缩 进 ， 是 在 行 循环 中 ， 不 


是 在 列 循环 中 )。 





现在 我 们 需要 一 个 CSV 格式 的 输入 文件 ， 其 中 包含 着 要 加 载 到 数据 表 中 的 所 有 数据 。 对 
于 这 个 示例 ， 可 以 使 用 在 第 2 章 中 用 过 的 supplier_data.csv 文件 。 如 果 你 跳 过 了 第 2 章 ， 
或 者 没有 这 个 文件 ， 那 么 可 以 在 图 4-6 中 看 到 这 个 文件 中 的 数据 。 
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supplier data 











2341 $500.00 
2341 $500.00 
5467 $750.00 
5467 $750.00 
7009 $250.00 
7009 $250.00 
6650 $125.00 
6650 $125.00 
3321 $615.00 
3321 $615.00 
3321 $615.00 
3321 $615.00 


1 (Supplier Name |Invoice Number Part Number Cost 
2 Supplier X 001-1001 
3 Supplier X 001-1001 
4 Supplier X 001-1001 
5 Supplier X 001-1001 
6 Supplier Y 50-9501 
7 Supplier Y 50-9501 
8 Supplier Y 50-9505 
9 Supplier Y 50-9505 
10 Supplier Z 920-4803 
11 Supplier Z 920-4804 
12 Supplier Z 920-4805 
13 Supplier 920-4806 


Purchase Date 


1/20/2014 
1/20/2014 
1/20/2014 
1/20/2014 
1/30/2014 
1/30/2014 

2/3/2014 

2/3/2014 

2/3/2014 
2/10/2014 
2/17/2014 
2/24/2014 











& 4-6: CSV 文件 supplier data.csv 中 的 示例 数据 ， 显 示 在 Excel 工作 表 中 





载 到 Suppliers 数据 表 中 了 。 要 完成 这 个 操 人 





python 2db insert rows.py supplier data.csv 

















图 4-7 Jos f (Ein tr I PTT EDDA EH EI RR 


当 你 有 了 Python 脚本 和 CSV 输入 文件 之 后 ， 就 可 以 使 用 脚本 将 CSV Ag ACTA 
在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 : 





中 的 数据 加 


。 输 出 的 第 一 部 分 是 从 CSV 文件 中 解析 出 的 











数据 行 ， 输 出 的 第 二 部 分 古 同样 的 行 ， 只 不 过 是 从 sqlite 数据 表 中 提取 出 来 的 。 











inton>cd Desktop 


Qe duc Eon 2db_ insert_ rows ;py supplier_ data.csv 
“supplier "001-1001" y 

“Supplier '001-1001', '2341' 0 

'supplier ， :001-1001', '5467', '$7 

'supplier X', '001-1001', '5467', 

'supplier '50-9501', '7009', 

'Supplier '50-9501', '7009', 

'supplier 50-9505', '6650', 

'supplier : ta *6650", 

"supplier 
“Supplier 
"supplier 
“Supplier 


"33215 
TEE a . 
'920-4805', '3321', '$6,015. 00 
， '920-4806', '3321', '$1,006,015.00 ', 


; ‘001- 1001", '2341', ‘$500.00 ', 
‘ ", '2341', ‘$500.00 ', " 
;5467， ue 
“BAG?” 

OD 


NNNN<<<~< 


'supplier 
"Supplier 
“Supplier 
"Supplier 
“Supplier 
"Supplier 
“supplier 
"Supplier 
“supplier 
“Supplier 
“supplier 
“Supplier 


z * 6650 
9 "6650 
, "920-4803  ， "3321! " $ 
， '920-4804', '3321', '$615.00 ', 
， '920-4805', '3321', '$6,015.00 ', 
， '920-4806', '3321', '$1,006,015.00 


NNNN ~~ << & & XX 





:\Users\Clinton\Desktop> 
I m 














4-7, Windows 系统 下 2db_insert_rows.py 的 输出 


A 








个 输出 展示 了 12 个 值 列 
些 来 自 于 输入 文件 的 12 行人 
的 值 列 表 。 


这 个 示例 通过 从 CSV. 输入 文件 中 将 所 有 要 加 载 的 数据 读 取 和 插入 到 表 中 ， 演 示 了 如 何 规 
模 化 地 将 数据 加 载 到 数据 库 中 。 这 个 示例 适用 于 向 数据 表 中 添加 新 行 的 情况 ， 但 是 如 果 想 
更 新 表 中 已 有 的 行 ， 应 该 怎么 做 呢 ? 下 一 个 示例 就 可 以 解决 这 个 问题 


4.1.2. 更 新 表 中 记录 


前 一 个 示例 介绍 了 使 用 CSV 输入 文件 向 数据 表 中 添加 新 行 的 方法 ， 因 为 可 以 使 用 循环 和 
glob， 所 以 可 以 将 这 个 方法 扩展 到 任意 数目 的 文 i. 但 有 些 时 候 ， 不 需要 向 数据 表 中 加 载 
新 数据 ， 而 是 需要 更 新 表 中 已 有 的 行 。 


吉 运 的 是 ， 我 们 可 以 重新 使 用 从 CSV 输入 文件 中 读 取 数据 的 技术 来 更 新 表 中 已 有 的 行 。 
实际 上 ， 为 SQL 语句 组 装 一 组 值 和 为 输入 文件 中 的 每 一 行 执行 SQL 语句 的 技术 与 前 一 个 
示例 是 一 样 的 。SQL 语句 还 是 有 所 改变 的 ， 不 同 的 是 从 INSERT 语句 变 成 了 UPDATE 语句 。 


我 们 已 经 熟悉 了 如 何 使 用 CSV 输入 文件 将 数据 加 载 到 数据 表 中 ， 下 面 学 习 如 何 使 用 CSV 
输入 文件 更 新 数据 表 中 已 有 的 记录 。 要 完成 这 个 操作 ， 在 文本 编辑 器 中 输入 下 列 代码 ， 然 
后 将 文件 保存 为 3db_update_row.py: 


1 #!/usr/bin/env python3 
2 import csv 

3 import sqlite3 

4 import sys 


5 # CSV 输 入 文件 的 路 径 和 文件 名 


来 自 于 CSV ye 中 除 标 题 行 之 外 的 12 行 数据 。 在 这 
列表 之 下 ， 有 一 个 空 行 ， 然 后 是 从 数据 表 中 提取 的 12 行 数据 
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6 input file = sys.argv[1] 

7 # 创建 SQLite3 内 存 数据 库 

8 # 创建 带 有 4 个 属性 的 sales 表 

9 con = sqlite3.connect(':memory:') 

10 query = """CREATE TABLE IF NOT EXISTS sales 
11 (customer VARCHAR(20), 

12 product VARCHAR(40), 

13 amount FLOAT, 

14 date DATE) ;""" 


15 con.execute(query) 
16 con.commit() 


17 # 向 表 中 插入 几 行 数据 
18 data = [('Richard Lucas', 'Notepad', 2.50, '2014-01-02'), 


19 ('Jenny Kim', 'Binder', 4.15, '2014-01-15'), 

20 ('Svetlana Crow', 'Printer', 155.75, '2014-02-03'), 

21 ('Stephen Randolph', 'Computer', 679.40, '2014-02-20')] 
22 for tuple in data: 

23 print(tuple) 


24 statement - "INSERT INTO sales VALUES(?, ?, ?, ?)" 

25 con.executemany(statement, data) 

26 con.commit() 

27 # 读 取 CSV 文 件 并 更 新 特定 的 行 

28 file reader = csv.reader(open(input file, 'r'), delimiter=',') 
29 header - next(file reader, None) 

30 for row in file reader: 

31 data - [] 


32 for column index in range(len(header)): 

33 data.append(row[column index]) 

34 print(data) 

35 con.execute("UPDATE sales SET amount-?, date-? WHERE customer-?;", data) 


36 con.commit() 

37 # 查询 sales 表 

38 cursor = con.execute("SELECT * FROM sales") 
39 rows = cursor.fetchall() 

40 for row in rows: 


41 output - [] 

42 for column index in range(len(row)): 

43 output.append(str(row[column index])) 
44 print(output) 


所 有 代码 看 上 去 都 很 熟悉 。 第 2-4 行 代码 导入 了 3 个 Python 内 置 模块 ， 这 样 我 们 就 可 以 使 
用 其 中 的 方法 来 读 取 命 令 行 输入 、 读 取 CSV 输入 文件 和 与 内 存 数 据 库 和 数据 表 进 行 交 互 。 
第 6 行 代码 将 CSV 输入 文件 的 路 径 名 赋 给 变量 input file, 

第 9-16 行 代码 创建 了 一 个 内 存 数据 库 ， 还 创建 了 一 个 具有 4 个 列 属性 的 数据 表 sales, 
第 18~24 行 代码 为 sales 表 创 建 了 4 条 记录 ， 并 将 这 4 条 记录 插入 到 了 表 中 。 请 用 一 点 时 
间 仔 细 看 一 下 Richard Lucas 和 Jenny Kim 的 记录 。 我 们 稍 后 要 用 脚本 更 新 的 就 是 这 2 条 记 
K. ME, sales KPA 4 条 记录 ， 看 上 去 与 你 要 更 新 记录 的 任何 数据 表 没 什么 不 同 ， 即 
使 比 实际 的 数据 表 要 小 很 多 。 

第 28~36 行 代码 与 前 面 的 示例 几乎 完全 相同 。 唯 一 的 明显 区 别 是 第 35 fr, UPDATE 语句 代 
末了 原来 的 INSERT 语句 。 在 UPDATE 语句 中 ， 你 必须 指定 你 想 更 新 哪 一 条 记录 和 哪 一 个 列 
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属性 。 在 这 个 例子 中 ， 我 们 想 为 一 组 特定 的 customer 更 新 amount 值 和 date 值 。 像 前 面 的 
示例 一 样 ，UPDATE 语句 也 需要 很 多 问号 占 位 符 表 示 出 查询 中 的 值 的 位 置 ，CSV 输入 文件 中 
数据 的 顺序 也 要 同 查 询 中 属性 的 顺序 一 样 。 在 这 个 例子 中 ， 查 询 中 的 属性 从 左 到 右 分 别 是 
amount, date 和 customer; BLA, CSV 输入 文件 中 的 列 从 左 到 右 也 应 该 是 数量 、 日 期 和 客 
户 名 称 。 

最 后 ， 第 39~44 行 代码 和 前 面 示例 中 这 部 分 的 代码 基本 相同 。 这 些 代码 从 sales 表 中 取出 
所 有 行 ， 然 后 在 命令 行 窗口 或 终端 窗口 中 打印 出 每 一 行 ， 并 使 用 一 个 空格 分 隔 每 一 列 。 
现在 我 们 需要 一 个 CSV 输入 文件 ， 其 中 包含 着 要 用 来 更 新 数据 表 中 某 些 记录 的 数据 。 下 
面 是 创建 这 个 CSV 文件 的 步骤: 


(1) 打开 一 个 电子 表格 程序 。 
(2) 添加 如 图 4-8 中 所 示 的 数据 。 
(3) 将 文件 保存 为 data_for_updating.csv。 




















? 国 - 8x 



































ve - POY 
2v dh 
A B C D E F G E H 
1 lamount |date customer 
2 4.25 5/11/2014 Richard Lucas 
3 6.75 5/12/2014 Jenny Kim 
4 
5 
6 U 
r4 
8 
9 
10 
11 























) xX 














4-8. 文件 data for updating.csv 中 的 示例 数据 ， 显 示 在 Excel 工作 表 中 

现在 你 已 经 完成 了 Python 脚本 和 CSV 输入 文件 ， 可 以 使 用 脚本 和 输入 文件 来 更 新 sales 

数据 表 中 的 某 些 行 了 。 要 完成 这 个 操作 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 ; 
python 3db update rows.py data for updating.csv 

图 4-9 展示 了 将 输出 打印 在 命令 行 窗口 中 的 界面 。 前 4 行 输出 (元 组 ) 是 初始 数据 行 ， 接 

下 来 2 行 (列表 ) 是 从 CSV 文件 中 读 入 的 数据 ， 最 后 4 行 (列表 ) 是 从 数据 库 中 取出 的 

更 新 了 行 之 后 的 数据 。 

















| 画 Command Prompt 
Microsoft windows [Version 6.1.7601] | ] 
Copyright (c) 2009 Microsoft Corporation. All rights reserved. 


C:NUsersNClinton»cd Desktop 


:\Users\Clinton\Desktop>python 3db. update from csv.py data. for updating 
"Richard Lucas', 'Notepad', 2.5, '2014-01-02') 

"Jenny Kim', 'Binder', 4.15, '2014-01-15') 

("Svetlana Crow’, ‘Printer’, 155.75, '2014-02-03') 

("Stephen Randolph’, ‘Computer’, 679.4, '2014-02-20') 

"4.25", "5/11/2014', ‘Richard Lucas" ] 


", 5/12/2014", ‘Jenny Kim'] 
Richard Lucas Notepad 4.25 5/11/2014 
Jenny Kim Binder 6.75 5/12/2014 
Svetlana Crow Printer 155.75 2014-02-03 
Stephen Randolph Computer 679.4 2014-02-20 


Ic: \Users\Clinton\Desktop> 





-CSV 

















图 4-9; Windows 系统 下 3db update rows.py 的 输出 








这 个 输出 首先 展示 了 数据 库 中 初始 的 4 行 数据 ， 接 下 来 是 要 更 新 到 数据 库 中 的 2 行 数 
























































据 。 在 要 更 新 的 2 行 数据 中 ，Richard Lucas 的 新 的 amount 值 为 4.25， 新 的 date 值 为 
5/11/2014。 同 样 ，Jenny Kim 的 新 的 amount 值 为 6.75， 新 的 date 值 为 5/12/2014。 












































一 个 单独 的 行 中 ， 行 中 每 个 数据 使 用 空格 分 隔 。 回 忆 一 下 ，Richard Lucas 的 初 























和 date 值 分 别 是 2.5 和 2014-01-02。 同 样 ，Jenny Kimd 的 初始 amount 值 和 data 值 分 别 是 
4.15 和 2014-01-15。 从 图 4-9 中 的 输出 可 以 看 出 ，Richard Lucas 和 Jenny Kim 的 这 两 个 值 





























已 经 被 更 新 成 了 CSV 输入 文件 中 的 新 值 。 

















在 这 2 行 下 面 ， 和 输出 还 展示 了 执行 更 新 之 后 从 数据 表 中 取出 的 4 行 数据 。 每 行 数据 打印 在 











始 amount fÉ 


I 

















这 个 示例 演示 了 批量 更 新 数据 表 中 已 有 记录 的 方法 ,这 种 方法 使 用 CSV 输入 文件 来 提供 更 
新 特定 记录 的 数据 。 本 章 内 容 到 现在 为 止 ， 提 供 的 示例 都 是 依赖 于 Python 内 置 的 sqlite3 
模块 。 使 用 这 个 模块 可 以 快速 编写 脚本 ， 不 用 依赖 某 个 独立 的 、 需 要 下 载 安装 的 数据 库 系 
统 ， 比 如 MySQL、PostgreSQL 或 Oracle。 在 下 节 中 ， 我 们 要 在 下 载 安 装 一 个 数据 库 系统 
























































(MySQL) 的 基础 上 重新 实现 这 些 示 例 ， 还 要 学 习 在 数据 库 系 统 中 向 数据 表 中 加 载 数据 和 
更 新 记录 ， 以 及 通过 数据 库 查询 将 输出 写 入 CSV 文件 的 方法 。 下 面 开 始 这 部 分 的 学 习 。 

















4.2 MySQL 数据 库 











要 完成 本 节 中 的 示例 代码 ， 需 要 有 MySQLdb 扩展 包 ， 也 就 是 MySQL-python (Python v2) 或 





mysqlclient (Python v3) ;。 这 个 扩展 包 可 以 使 Python 与 数据 库 以 及 数据 表 进 行 


























交互 ,所 以 我 


们 使 用 它 与 在 本 节 中 创建 的 MySQL 数据 表 进 行 交 互 。 如 果 你 安装 了 Anaconda Python, JB 
么 你 就 已 经 安装 了 这 个 扩展 包 ， 因 为 它 与 安装 程序 是 捆绑 在 一 起 的 。 如 果 你 是 从 Python.org 




















网 站 上 安装 的 Python， 那 么 你 需要 按照 附录 A 中 的 指导 步骤 安装 这 个 扩展 包 。 














注 3: 这 些 扩展 包 可 以 在 Python Package Index Chttps://pypi.python.org/pypi/mysqlclient) 中 找到 。 





2 

















和 之 前 一 样 ， 为 了 使 用 数据 库 中 的 表 ， 必 须 先 创建 一 个 。 


(1) 参照 附 录 A， 下 载 安装 MySQL 数据 库 系统 。 
下 载 安装 了 MySQL 数据 库 系统 之 后 ， 你 就 可 以 使 用 MySQL 命令 行 客户 端 了 。 
(2) 在 命令 行 中 输入 mysal, HF MySQL 命令 行 客 户 端 。 



































现在 你 可 以 使 用 命令 行 界 面 与 MySQL 数据 库 系 统 进行 交互 了 。 首 先 ， 让 我 们 看 一 下 




















MySQL 数据 库 系 统 中 已 有 的 数据 库 。 





(3) 要 完成 这 个 操作 ， 输 入 以 下 命令 ， 然 后 按 回 车 键 。 图 4-10 展示 了 Windows 系统 下 的 结果 。 





SHOW DATABASES; 

















请 注意 上 面 的 命令 以 分 号 结尾 ， 这 样 MySQL :的 命令 已 经 输入 完成 。 如 果 你 没 

















dre 号 就 按 了 回 车 键 ， 那 么 MySQL 会 期 待 你 继续 输入 下 一 行 命令 (很 快 你 




















:就 会 


到 多 行 令 )。 如 果 sic J 分 号 J^ 也 不 要 着 急 ， 。 人 然后 按 回 车 键 ， 


MSL 就 会 执行 你 的 命令 。 











这 条 命令 的 输 在 MySQL 数据 库 系统 中 已 经 有 了 4 个 数据 库 。 这 些 数据 库 使 
MySQL 数据 库 系 统 能 够 运行 ， 并 包含 系 名 统 用 户 的 权限 信息 。 要 创建 一 个 数据 表 ， 必 须 

















先 创建 一 个 你 自 己 的 数据 库 。 








Enter password: *XxXxXKEKE 

Welcome to the MySQL monitor. Commands end with ; or \g. 
Your MySQL connection id is 

erver version: 5.6.17 MySQL Community Server (GPL) 


copyright (c) 2000, 2014, Oracle and/or its affiliates. All rights reserved 
Oracle is a registered trademark of Oracle Corporation and/or its 
affiliates. Other names may be trademarks of their respective 


! or 'Nh' for help. Type ’\c’ to clear the current input statement. 


information schema 1 
ysgl 


per f ormance_schema | 
t 


4 rows in set (0.00 sec) 


mysql> 





=m faq Z9 





6/19/2014 








& 4-10; 安装 了 MySQL 之 后 ，SHOW DATABASES; 命令 显示 MySQL 中 的 默认 数据 库 


(4) 要 创建 一 个 数据 库 ， 输 入 以 下 命令 ， 然 后 按 回 车 键 : 


CREATE DATABASE my suppliers; 









































按 了 回 车 键 之 后 ， 你 可 以 再 运行 一 次 SHOW DATABASE; 命令 ， 下 你 刚刚 创建 的 新 数 




















据 库 。 要 在 my suppliers 数据 库 中 创建 数据 表 ， 必 须 先 选择 my. suppliers 数据 库 。 
(5) 要 选择 my. suppliers 数据 库 ， 输 入 以 下 命令 ， 然 后 按 回 车 键 (参见 图 4-11) : 


USE my suppliers; 



































Enter password: ®XxxXXERXX 

lielcome to the MySQL monitor. Commands end with ; or \g 

Your MySQL connection id is 

erver version: 5.6.17 MySQL Community Server (GPL) 

copyright (c) 2000, 2014, Oracle and/or its affiliates. All rights reserved 
racle is a registered trademark of Oracle Corporation and/or its 

affiliates. Other names may be trademarks of their respective 

owners: 

Type ’help; or ’Nh’ for help. Type ’\c’ to clear the current input statement. 


Inysal> SHOW DATABASES; 
E 


4 rows in set 


mysql> CREATE DATABASE my suppliers; 
Query OK row affected (2.01 sec) 


mysql> SHOW DATABASES; 
+--- 一 -+ 


im 
my_suppliers 
mysgl 


performance_schema 
st 


IS rows in set (0.00 sec) 


mysql> USE my_suppliers; 
atabase changed 
ysql> m 


jm FS D 301 PM 
mM 














图 4-11; 创建 一 个 新 数据 库 my_suppliers， 查 看 已 经 包括 在 已 有 数据 库 列表 中 的 新 数据 库 ， 匡 
换 数 据 库 并 开始 使 用 


按 了 回 车 键 之 后 ， 你 就 已 经 选择 了 my_suppliers 数据 库 。 现 在 可 以 创建 数据 表 来 保存 
供应 商 数据 了 。 


(6) 要 创建 一 个 数据 表 Suppliers， 输 入 以 下 命令 ， 然 后 按 回 车 键 : 


CREATE TABLE IF NOT EXISTS Suppliers 
(Supplier Name VARCHAR(20), 

Invoice Number VARCHAR(20), 

Part Number VARCHAR(20), 

Cost FLOAT, 

Purchase Date DATE); 


如 果 数 据 库 中 不 存在 数据 表 Suppliers， 这 个 命令 就 创建 数据 表 Suppliers, XARA 5 
个 列 (也 就 是 fields my attributes) . Supplier Name, Invoice Number, Part Number, 
Cost 和 Purchase Date, 


前 3 个 列 是 可 变 字符 VARCHAR 型 字段 。29 表示 为 这 个 字段 中 的 数据 分 配 20 个 字符 。 如 
有 果 输 入 这 个 字段 的 数据 大 于 20 个 字符 ， 那 么 数据 将 被 截断 。 如 果 数 据 少 于 20 个 字符 ， 
那么 这 个 字段 就 为 数据 分 配 一 个 更 小 的 空间 。 我 们 应 该 为 包含 变 长 字符 串 的 字段 选择 
VARCHAR 类 型 ， 因 为 这 样 可 以 使 数据 表 节 省 保存 不 必要 字符 的 空间 。 但 是 ， 你 必须 确定 
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圆 括号 中 的 数值 足够 大 ， 可 以 分 配 足够 多 的 字符 以 保证 字段 中 最 长 的 字符 串 不 被 截断 。 
除了 VARCHAR， 还 有 一 些 其 他 字段 类 型 ， 比 如 CHAR, ENUM 和 BLOB。 当 你 想 设 置 一 个 有 
固定 数量 的 字符 的 字段 ， 或 者 需要 将 字段 中 的 值 向 右 补 齐 到 一 个 固定 长 度 时 ， 可 以 
考虑 CHAR 字段 类 型 ， 当 字段 取 值 是 一 个 允许 值 列表 (比如 small、medium、large) 时 ， 
可 以 考虑 ENUM 类 型 字段 当 字段 内 容 是 长 度 可 变 的 大 量 文本 时 ， 可 以 考虑 BLOB 类 型 的 
字段 。 

第 四 列 是 一 个 浮 点 数 FLOAT 字段 。 浮 点 数字 段 保存 浮 点 数 近 似 值 。 因 为 在 这 个 例子 中 ， 
第 四 列 包 含 的 是 货币 值 ， 所 以 可 以 用 NUMERIC 类 型 字段 灰 代 FLOAT 类 型 字段 ，NUMERIC 
字段 即 定点 确定 值 类 型 字段 。 例 如 ， 不 使 用 FLOAT， 可 以 使 用 NUMERIC(11, 2), 11 是 数 
值 的 精度 ， 或 者 是 为 数值 保存 的 数位 总 数 ， 包 括 小 数 点 后 面 的 位 数 。2 是 小 数位 数 ， 也 
就 是 小 数 点 后 面 的 数位 总 数 。 在 这 个 例子 中 ， 我 们 使 用 FLOAT 而 不 使 用 NUMERIC， 是 为 
了 获得 最 大 的 代码 可 移植 性 。 

最 后 一 列 是 一 个 日 期 DATE 字段 。DATE 字段 用 来 保存 日 期 ， 形 式 为 "YYYY-MM-DD' ， 没 有 
时 间 部 分 。 所 以 像 6/19/2014 这 样 的 日 期 在 MySQL 中 被 存储 为 "2014-06-19' 。 无 效 的 
日 期 被 转换 为 '9000-00-00 ' , 

(7) 为 了 确保 数据 表 创 建 正 确 ， 输 入 以 下 命令 ， 然 后 按 回 车 键 : 

DESCRIBE Suppliers; 
按 了 回 车 键 之 后 ， 你 会 看 到 一 个 表格 ， 其 中 列 出 了 你 创建 的 列 的 名 称 、 每 列 的 数据 类 型 
(例如 : VARCHAR 或 FLOAT) 和 列 中 的 值 是 否 可 以 为 NULL。 
现在 我 们 已 经 创建 了 数据 库 my, suppliers 和 数据 表 Suppliers， 还 要 创建 一 个 新 用 户 ， 
并 授予 这 个 用 户 与 数据 库 和 数据 表 进 行 交 互 的 权限 。 

(8) 要 创建 一 个 新 用 户 ， 输 入 以 下 命令 ， 然 后 按 回 车 键 (请 注意 用 你 要 使 用 的 用 户 名 替换 
username; 你 还 应 该 用 自己 的 密码 替换 secret_password， 来 获得 更 高 的 安全 性 ) : 
CREATE USER "username'Q'LocaLhost' IDENTIFIED BY 'secret password'; 

我 们 已 经 创建 了 一 个 新 用 户 ， 现 在 要 为 这 个 用 户 授予 my. suppliers 数据 库 的 所 有 权限 。 
通过 授予 用 户 所 有 的 数据 库 权 限 ， 就 使 这 个 用 户 可 以 在 数据 库 中 的 表 上 执行 各 种 操作 。 
这 些 权限 非常 有 用 ， 因 为 本 节 中 脚本 涉及 的 操作 包括 向 表 中 加 载 数 据 、 修 改 表 中 特定 记 
录 和 对 数据 表 执 行 查 询 。 

(9) 要 向 新 用 户 授予 所 有 权限 ， 输 入 以 下 两 条 命令 ， 然 后 在 每 条 命令 后 面 按 回 车 键 (同样 ， 
注意 用 你 在 前 一 步 创 建 的 用 户 名 替换 username) : 


GRANT ALL PRIVILEGES ON my suppliers.* TO 'username'Q'localhost'; 
FLUSH PRIVILEGES; 


现在 你 可 以 同 本 地 主机 (也 就 是 你 自己 的 计算 机 ) "Hy my suppliers 数据 库 中 的 
Suppliers 表 进 行 交 互 了 。 参 见 图 4-12。 
















































































































































































m MySQL 5.6 Command Line Client 


Ne e My monitor. i 5 OF: NG 
Your MySQL connection id is 2 
Server version: 5.6.22-log MySQL Community Server (GPL) 


Oracle is a registered trademark of Oracle Corporation and/or its 
affiliates. Other names may be trademarks of their respective 
owners. 


mysal> SHOW DATABASES; 


information_schema | 
mysgl | 
performance, schema b 


mysql> CREATE DATABASE my suppliers; 
uery OK, 1 row affected (2.01 sec) 


ys ql> SHOW DATABASES; 


informat ion_schema 
my_suppliers 

mysql 

perf ormance_schema 


rows in set 


Database changed 

mysql> CREATE TABLE IF NO Suppliers 
-> (Supplier_Name VAR 
-? Invoice_N R 
-? Part. Number À 
-> Cost FLOAT, 
-> Purchase_Date DATE 

Query OK, @ rows affected io. Q@4 sec) 


mysal?> DESCRIBE Suppliers; 


Suppli varchar 
nvoice_Number varchar (20) 

Part. Number varchar(20) 

Cost 

Purchase. Date 


uery OK, @ rows affected (0.02 sec 


mysql> GRANT ALL PRIVILEGES ON my. suppliers.X* TO ’clinton’@’ localhost’; 
Query OK, @ rows affected (0.00 sec) 


mysql> FLUSH PRIVILEGES; 
OK, @ rows affected (0.01 sec) 


mysql> CREATE USER ‘clinton’@’ localhost’ IDENTIFIED BY ’secret_password’ ; 


Copyright (c) 2000, 2014, Oracle and/or its affiliates. All rights reserved. 


Type 'help;' or '*h' for help. Type '*c' to clear the current input statement. 














my. suppliers 数据 库 和 其 中 的 表 的 所 有 权限 


现在 你 已 经 创建 了 一 个 数据 库 和 用 来 保存 数据 的 表 ， 下 
中 加 载 数据 。 


4.2.1 疝 表 中 插入 新 记录 


现在 我 们 准备 从 一 个 CSV xt 
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Excel 文件 中 将 记录 输出 到 CSV 文件 ， 这 可 以 使 你 创建 一 个 多 用 途 的 数 所 
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居 通 道 


就 开始 学 习 如 何 使 用 Python [al Ze 
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& 4-12: fr my suppliers 数据 库 中 创建 新 表 Suppliers， 创 建 一 个 新 用 户 ， 为 新 用 户 授予 





Ph 将 记录 加 载 到 数据 表 中 。 你 已 经 可 以 从 Python 脚本 或 





数 








下 面 创 建 一 个 新 的 Python 脚本 。 这 个 脚本 会 将 数据 从 CSV. 文件 中 插入 到 我 们 的 数据 表 ， 











然后 展示 表 中 的 数据 。 其 中 的 第 二 个 步 又， 即 在 命令 行 窗 口 或 终端 窗 


口 打 印 数据 ， 并 不 是 








必须 的 (而 且 如 果 你 加 载 了 上 千 条 记录 的 话 ， 我 也 不 建议 将 记录 打 E 


1 在 窗口 中 ) ， 我 之 所 





以 在 示例 中 包括 了 这 个 步骤 ， 是 想 演 示 一 种 不 指定 单独 的 列 索引 ， 打 印 出 每 条 记录 中 所 有 





列 的 方法 (也 就 是 说 ， 这 种 语法 可 以 扩展 到 任意 数目 的 列 )。 


首先 ， 在 文本 编辑 器 中 输入 下 列 代码 ， 然 后 将 文件 保存 为 4db_mysql_load_from_csv.py: 





#!/usr/bin/env python3 

import csv 

import MySQLdb 

import sys 

from datetime import datetime, date 


# CSV 输 入 文件 的 路 径 和 文件 名 
input file = sys.argv[1] 
9 # 连接 MySQL 数 据 库 


o NOAA PWN PB 








10 con = MySQLdb.connect(host-'localhost', port=3306, db='my_suppliers', V 


11 user='root', passwd='my_password' ) 

12 c = con.cursor() 

13 # 向 Suppliers 表 中 插入 数据 

14 file reader = csv.reader(open(input file, 'r', newline='')) 
15 header - next(file reader) 

16 for row in file reader: 

17 data - [] 








18 for column index in range(len(header)): 

19 if column index « 4: 

20 data.append(str(row[column index]).lstrip('$')V 
21 .replace(',', '').strip()) 

22 else: 

23 a date = datetime.date(datetime.strptime(\ 

24 str(row[column index]), '%m/%d/%Y')) 

25 # %Y: year is 2015; Xy: year is 15 

26 a date = a_date.strftime('%Y-%m-%d' ) 

27 data.append(a date) 

28 print data 

29 c.execute("""INSERT INTO Suppliers VALUES (%s, 9s, %S, %S, %s);""", data) 


30 con.commit() 

31 print("") 

32 # 查询 Suppliers 表 

33 c.execute("SELECT * FROM Suppliers") 
34 rows = c.fetchall() 

35 for row in rows: 


36 row list output =[] 

37 for column index in range(len(row)): 

38 row list output.append(str(row[column index])) 
39 print(row list output) 


这 个 脚本 和 第 2 章 中 的 脚本 一 样 ， 依 赖 于 csv, datetime, string 和 sys 模块 。 第 2 行 代 
码 导 入 csv 模块 ， 这 样 我 们 就 可 以 使 用 其 中 的 方法 读 取 和 解析 CSV 文件 了 。 第 4 行 代码 导 




















入 sys 模块 ， 以 使 我 们 可 以 在 命令 行 中 提供 一 个 文件 的 路 径 和 名 称 供 脚 本 使 用 。 第 5 行 代 


码 从 datetime 模块 导入 datetime 和 date 方法 ， 以 使 我 们 可 以 对 输入 


文件 中 最 后 一 列 的 日 





期 数据 进行 处 理 和 格式 化 。 这 里 需要 剥离 数据 中 的 美元 符号 ， 还 要 删除 任何 内 秽 的 过 号 ， 
这 样 数据 才能 被 输入 到 数据 表 中 接受 浮 点 数 的 字段 中 。 第 3 行 代码 导入 之 前 下 载 并 安装 好 
的 MySQLdb 扩展 模块 ， 以 使 我 们 可 以 使 用 其 中 的 方法 来 连接 MySQL 数据 库 和 数据 表 。 

第 8 行 代码 使 用 sys 模块 在 命令 行 中 读 取 文件 的 路 径 和 名 称 ， 并 将 这 个 值 赋 给 变量 
input file, 


第 10 行 代码 使 用 MySQLdb 模块 的 connect() 方法 连接 my_suppliers， 即 在 上 一 节 中 创建 的 
MySQL 数据 库 。 与 处 理 CSV 和 Excel 文件 不 同 (对 这 两 种 文件 ， 你 是 对 文件 本 身 进行 读 
取 、 修 改 或 删除 操作 )，MySQL 建立 的 数据 库 就 像 一 台独 立 计 算 机 (服务 器 )， 你 可 以 癌 
数据 库 请 求 连接 、 发 送 数据 和 请 求 数 据 。 在 连接 时 ， 需 要 指定 一 些 通用 参数 ， 包 括 host、 
port. db, user 和 passwd, 


host 是 数据 库 所 在 的 机 器 的 主机 名 。 在 本 例 中 ，MySQL 服务 器 保存 在 你 的 计算 机 上 ， 所 
以 host 是 Locathost。 当 你 连接 其 他 数据 源 时 ， 服 务 器 可 能 位 于 不 同 的 机 器 上 ， 所 以 你 需 
要 修改 localhost， 更 换 成 服务 器 所 在 的 机 器 的 主机 名 。 


port 是 MySQL 服务 器 的 TCP/IP 连接 端口 号 。 我 们 要 使 用 的 端口 号 是 默认 的 端口 号 3306。 
和 host 参数 一 样 ， 如 果 你 不 在 本 地 主机 上 工作 ， 而 且 你 的 MySQL 服务 器 管理 员 为 服务 器 
设置 了 不 同 的 端口 号 ， 那 么 你 必须 使 用 这 个 端口 号 去 连接 MySQL 服务 器 。 本 例 中 使 用 了 
值 安装 MySQL 服务 器 ， 所 以 localhost 是 有 效 的 主机 名 ，3306 是 有 效 的 端口 号 。 


db 是 你 想 连 接 的 数据 库 名称 。 在 本 例 中 ， 我 们 想 连接 ny. suppliers 数据 库 ， 因 为 它 保存 着 
我 们 要 加 载 数据 的 表 。 如 果 以 后 你 在 本 地 计算 机 上 创建 了 另 一 个 数据 库 ， 比 如 contacts, 
那么 就 必须 将 db 参数 从 my_suppliers 修改 为 contacts， 来 连接 这 个 数据 库 。 


user 是 进行 数据 库 连接 的 用 户 的 用 户 名 。 在 本 例 中 ， 我 们 作为 “root” 用 户 进行 连接 ， 使 
用 的 密码 就 是 在 安装 MySQL 服务 器 时 创建 的 密码 。 当 你 安装 MySQL 时 (你 可 以 按照 附 
K A 中 的 指示 步骤 完成 安装 )，MySQL 安装 程序 会 要 求 你 为 根 用 户 提 供 密码 。 在 本 例 中 ， 
我 们 为 根 用 户 创建 的 密码 ， 也 就 是 在 代码 中 提供 给 passwd 参数 的 密码 ， 即 "my_password , 
当然 ， 如 果 你 在 安装 MySQL 时 为 根 用 户 创建 了 不 同 的 密码 ， 那 么 你 应 该 在 脚本 代码 中 使 
用 你 自己 的 密码 替换 掉 "my_password ' 。 


在 创建 数据 库 、 表 和 新 用 户 的 步骤 中 ， 我 创建 了 一 个 新 用 户 clinton， 密 码 为 secret. 
password。 因 此 ， 我 可 以 在 下 列 脚本 : user='clinton' and passwd-'secret password' 中 
使 用 这 个 连接 。 如 果 你 想 在 代码 中 保留 user='root' ， 那 么 你 应 该 用 在 安装 MySQL 服务 
器 时 实际 设置 的 密码 替换 挥 "my_password' 。 或 者 ， 如 果 你 使 用 CREATE USER 命令 创建 了 
新 用 户 ， 也 可 以 使 用 这 个 新 用 户 的 用 户 名 和 密码 。 通 过 这 5 个 参数 ， 你 可 以 创建 与 my_ 
suppliers 数据 库 的 本 地 连接 。 

第 12 行 代码 创建 了 一 个 光标 ， 我 们 可 以 使 用 它 来 在 my_suppliers 数据 库 中 对 Suppliers 
表 执 行 SQL 语句 ， 并 将 修改 提交 到 数据 库 。 

第 14-29 行 代码 从 CSV 文件 中 读 取 要 加 载 到 数据 表 中 的 数据 ， 并 对 输入 文件 中 的 每 行 数 
据 执 行 一 条 SQL 语句 ， 将 其 插入 数据 表 中 。 第 14 行 代码 使 用 csv 模块 创建 了 file reader 
对 象 。 第 15 行 代 码 使 用 next C) 国 数 从 输入 文件 中 读 出 第 一 行 ， 也 就 是 标题 行 ， 并 将 其 赋 
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给 变量 header。 第 16 行 代码 创建 了 一 个 for 循环 ， 在 输入 文件 的 所 有 数据 行 之 间 循 环 。 
第 17 行 代码 创建 了 一 个 空 列表 变量 data， 对 于 输入 文件 中 的 每 一 行 ， 用 行 中 的 数据 去 填 
充 data， 这 些 数 据 将 在 第 29 行 代码 中 的 INSERT 语句 中 使 用 。 第 18 行 代 码 创建 了 一 个 for 
循环 ， 在 每 行 数据 中 的 各 个 列 之 间 循 环 。 第 19 行 代码 创建 了 一 个 if-else 语句 ， 检 验 列 索 
引 是 否 小 于 4。 因 为 输入 文件 中 有 5 列 ， 而 且 日 期 在 最 后 一 列 ， 所 以 日 期 列 的 索引 值 为 4。 
因此 ， 这 行 代码 判断 我 们 是 否 在 处 理 日 期 列 前 面 的 列 。 对 于 所 有 日 期 列 前 面 的 列 ， 索 引 值 
为 0、1、2 和 3， 第 20 行 代码 将 列 中 的 值 转换 为 字符 串 ， 如 果 字 符 串 左 侧 有 美元 符号 ， 就 
剥离 掉 这 个 字符 ， 然 后 将 这 个 值 追 加 到 列表 变量 data 中 。 对 于 最 后 的 日 期 列 ， 第 23 fT 
代码 将 其 转换 为 字符 串 ， 并 使 用 字符 串 按 照 代 码 中 的 格式 创建 一 个 datetime 对 象 ， 然 后 
将 datetime 对 象 转换 成 一 个 data 对 象 (只 保留 年 、 月、 日 )， 最 后 将 这 个 值 赋 给 变量 a_ 
date。 此 后 ， 第 26 行 代 码 将 这 个 data 对 象 转换 成 一 个 字符 串 ， 使 用 的 新 格式 是 要 加 载 到 
MySQL 数据 库 中 的 日 期 字符 串 格 式 (就 是 YYYY-MM-DD)， 并 将 格式 化 好 的 字符 串 重 新 赋 给 
变量 a_date。 最 后 ， 第 27 行 代码 将 这 个 字符 串 追 加 到 data 中 。 


第 28 行 代码 将 追加 到 data 中 的 数据 打印 到 命令 行 窗口 或 终端 窗口 上 。 请 注意 缩 进 。 这 行 
代码 的 缩 进 是 在 外 部 for 循环 之 下 ， 不 是 在 内 部 for 循环 之 下 的 ， 所 以 它 是 对 于 输入 文件 
中 的 每 一 行 来 执行 ， 而 不 是 对 于 输入 文件 中 的 每 一 行 和 每 一 列 去 执行 。 这 一 行 有 助 于 调试 
脚本 ， 但 是 一 旦 你 确定 代码 能 够 正确 运行 ， 就 可 以 将 这 行 代码 删除 或 者 注释 掉 ， 这 样 在 屏 
幕 上 就 不 会 打印 出 过 多 的 输出 了 。 

第 29 行 代码 是 实际 将 每 行 数据 加 载 到 数据 表 中 的 代码 。 这 行 代码 使 用 光标 对 象 的 
execute() 方法 执行 一 条 INSERT 语句 ， 将 一 行 数据 插入 到 表 Suppliers 中 。 每 个 %s 都 是 
要 插入 的 实际 值 的 占 位 符 。 占 位 符 的 数量 对 应 着 输入 文件 中 列 的 数量 ， 它 们 都 对 应 着 数据 
表 中 列 的 数量 。 而 且 ， 输 入 文件 中 列 的 顺序 也 要 对 应 数据 表 中 列 的 顺序 。 要 替换 到 %s 位 
置 的 值 来 自 于 列表 data， 这 个 列表 要 放 在 execute() HAM SH. KA data 是 使 
用 输入 文件 中 的 每 行 数据 填充 的 ， 而 且 INSERT 语句 也 是 对 于 输入 文件 中 的 每 行 数据 执行 
的 ， 所 以 这 些 代码 可 以 高 效 地 从 输入 文件 中 读 取 数据 行 ， 并 把 这 些 数 据 行 加 载 到 数据 表 
中 。 再 强调 一 次 ， 要 注意 缩 进 。 这 行 代码 是 在 外 部 for 循环 之 下 缩 进 的 ， 所 以 它 对 于 输入 
文件 中 的 每 一 行 数据 执行 一 次 。 最 后 ， 第 30 行 代码 是 另 一 个 commit 语句 ， 将 修改 提交 到 
数据 库 。 
第 33-39 行 代码 演示 了 如 何 从 数据 表 Suppliers 中 选择 所 有 数据 ， 并 将 输出 打印 到 命令 行 
窗口 或 者 终端 窗口 。 第 33 和 34 行 代码 执行 一 条 SQL 语句 ， 从 Suppliers 表 中 选择 所 有 数 
据 ， 并 将 输出 中 的 所 有 行 读 入 变量 rows。 第 35 行 代码 创建 了 一 个 for 循环 ， 在 rows 的 每 
一 行 中 循环 。 第 36 行 代码 创建 了 一 个 空 列表 变量 row_List_output， 用 来 保存 SQL 查询 输 
出 中 每 一 行 所 有 的 值 。 第 37 行 代码 创建 了 一 个 for 循环 ， 在 每 行 的 各 个 列 之 间 循环 。 第 
38 行 代码 将 每 个 值 都 转换 成 一 个 字符 串 ， 然 后 追加 到 row list output 中 。 最 后 ， 当 行 中 
所 有 的 值 都 进入 row list output 中 后 ， 第 39 行 代码 将 这 一 行 打印 到 屏幕 上 。 


现在 我 们 已 经 完成 了 Python 脚本 ， 可 以 使 用 这 个 脚本 将 supplier data.csv 中 的 数据 加 载 到 
Suppliers 数据 表 中 了 。 要 完成 这 个 操作 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 : 


python 4db mysql load from csv.py supplier data.csv 
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在 Windows 系统 中 ， 你 可 以 
中 的 第 一 部 分 是 从 CSV 文件 
数据 。 











A 


看 到 如 
1 解析 出 的 数据 ， 
































4-13 所 示 的 输 


Ly 
LL 





被 打印 到 命令 行 窗口 中 。 输 出 





第 二 部 分 


7 是 从 数据 表 中 查询 


8 的 同样 的 





E Command Prompt 


"001-1001" 
"001-1001" 


"Supplier 
"Supplier 
“supplier 


'50- 
'50- 
'50- 
' 50- 


9501", 
9501", 
9505", 
9505", 


"Supplier 
"Supplier 
"Supplier 
"Supplier 
"Supplier 
"Supplier 
"Supplier 
"Supplier 
"Supplier 
"Supplier 
"Supplier 
"Supplier 


"001-1001" 


C:\users\Clinton\Desktop> 


m 


'001-1001' | 
'001-1001', 


'920-4803', 
'920-4804', 
'920-4805', 
'920-4806', 


'920-4806', 


ic: \Users\Clinton>cd Desktop 


(ee usera ec ath 4db 1 mysql. load. from csv. py 


"2341' 
"2341" 
ETT TAM 
ETT YAN 
'7009', 
"7009" , 
'6650', 
"6650", 
"3321: 
"3321', 
"3391", 
"3307" 


"500.00' 
"500.00' 


"250.00", 
"250.00', 
'125.00', 
"125.00', 


123417; 


"615.0', 
"615.0"? 
"3321"? “6015.0. 


SEED 


"750.00"; 
'750.00', 


"615.00', 
"615.00", 
"6015.00! 
' 1006015. 


"2014- 


' 1006020. 


'2014-01-20' 
'2014-01-20'] 
'2014-01-20'] 
'2014-01-20"] 
'2014-01-30'] 
'2014-01-30'] 
"2014-02-03" ] 
"2014-02-03" ] 
"2014-02-03" ] 
2014-02-10" ] 
, '2014-02-17"] 
00', '2014-02-24'] 


'2014-01-20"] 
"2014-01-20" ] 
"2014-01-20" ] 
'2014-01-20'] 
01-30' 
'2014-01-30' 
2014-02-03" 
"2014-02-03" 
"2014-02-03" ] 
'2014-02-10'] 
"2014-02-17" ] 
0', '2014-02-24'] 


] 
] 
] 
] 





supplier_data.csv 























& 4-13: 输出 显示 supplier data.csv 中 的 数据 就 是 插入 到 MySQL 数据 表 Suppliers 中 的 数据 








文 个 输出 展示 了 12 个 值 列表 ， 


KAF CSV 输入 文件 中 除 标题 行 之 外 的 12 fr 





可 以 识别 出 这 12 个 列表 ， 因 


号 分 隔 。 


在 从 CSV 文 




















以 逗号 分 隔 。 这 个 输出 证 


如 果 要 以 其 他 方式 确定 纪 
车 键 : 


SELECT * FROM Suppliers; 


按 了 回 车 键 之 后 ， 








FH 
HAN > 





你 会 看 到 一 个 表格 ， 








为 每 个 列 


牛 中 读 取 的 12 个 输入 数据 列表 下 面 ， 有 一 
12 行 输 出 数据 ， 使 用 的 查询 语句 为 SELECT * FROM Suppliers, 
明了 数据 被 成 功 地 加 载 到 了 Suppliers 表 中 ， 并 被 成 功 读 出 


可 以 在 MySQL 命 





FN 





A 


列 中 的 12 行 数 据 ， 如 











4-14 所 示 。 


表 都 在 方 括号 〈[]) 








之 间 ， 列 表 中 的 每 个 值 


个 空 行 ， 然 后 是 从 数据 表 中 取出 的 


数据 。 


























的 值 





每 行 数据 




















令 行 客户 端 中 输入 以 下 命令 ， 





中 列 出 了 Suppliers 数据 表 中 所 有 的 列 ， 


占 一 行 , íT 








o 





ANH 


按 回 


以 及 每 








数据 








E MySQL 5.6 Command Line Client 


istered trademark of oracle Corporation and/or its 
her names may be trademarks of their respective 


oracle is a re 


Type 'help;' or '\h' for help. Type '\c' 
mysql> USE my_suppliers; 
Database changed 


mysql> SELECT * FROM Suppliers; 


001-1001 
| 001-1001 
| 001-1001 
001-1001 
| 50-9501 
| 50-9501 
50-9505 
50-9505 
| 920-4803 
920-4804 
| 920-4805 


2014-01-20 
2014-01-20 
2014-01-20 
2014-01-20 
2014-01-30 
2014-01-30 
2014-02-03 
2014-02-03 
2014-02-03 
2014-02-10 


| Supplier x 
Supplier X 
Supplier X 
Supplier X 
Supplier 
Supplier 
Supplier 
Supplier Y 
Supplier 
Supplier 
Supplier 
Supplier 


12 rows in 0.00 sec) 


mysql> 





to clear the current input statement. 





回 


i> | 











& 4-14: 使 用 MySQL 命令 行 客户 端 在 Suppliers 表 中 进行 数据 查询 的 结 


现在 我 们 已 经 有 了 一 个 充满 数据 的 数据 表 ， 下 
使 用 Python 将 查询 结果 写 入 CSV 文件 ， 而 不 是 打印 在 屏幕 上 。 


4.2.2 查询 一 个 表 并 将 输出 写 入 CSV 文 件 
— 最 常见 的 下 一 个 步 又 就 是 使 用 查询 从 表 中 取出 














I 




































































j 就 开始 学 习 如 何在 数据 库 





一 组 数据 ， 用 来 进 


分 析 或 满足 某 种 商业 需求 。 例 如 ， 你 可 能 想 知 道 哪些 客户 提供 了 最 多 的 利润 ， 或 者 哪些 
SIT RR: 
下 面 创建 一 个 新 的 Python 脚本 。 这 个 脚本 会 从 eae ae 数据 表 中 查询 出 一 组 特定 记录 ， 
然后 将 输出 写 入 CSV 输出 文件 。 个 例子 中 ， 我 们 想 找 出 Cost 列 中 的 值 大 于 1000. E 





























的 所 有 记录 ， 并 将 这 些 记录 所 有 列 中 的 值 输出 。 
后 将 文件 保存 为 Sdb_mysql_write_ to_file.py; 


Y. 在 文本 编辑 器 中 输 
































#!/usr/bin/env python3 
import csv 

import MySQLdb 

import sys 

# CSV 输 出 文件 的 路 径 和 文件 名 
output file = sys.argv[1] 

# 连接 MySQL 数 据 库 











1 
2 
3 
4 
5 
6 
7 
8 
9 


user='root', passwd-'my password') 

10 c = con.cursor() 

11 4 创建 写 文件 的 对 象 , 并 写 入 标题 行 

12 filewriter = csv.writer(open(output file, 'w', newline-' 
13 header = ['Supplier Name','Invoice Number','Part Number','Cost' 











'), delimiter=', 


入 下 列 代码 ， 然 


con = MySQLdb.connect(host-'localhost', port-3306, db='my_suppliers', V 


') 


, Purchase Date'] 





14 filewriter.writerow(header) 

15 # 查询 SuppLiers 表 ,并 将 结果 写 入 CSV 输 出 文件 
16 c.execute("""SELECT * 

17 FROM Suppliers 

18 WHERE Cost » 700.0;""") 

19 rows = c.fetchall() 

20 for row in rows: 

21 filewriter.writerow(row) 


这 个 示例 中 的 代码 几乎 就 是 前 一 个 示例 中 代码 的 子 集 ， 所 以 下 面 将 重点 介绍 其 中 的 新 代码 。 
第 2、3 和 4 行 代码 分 别 导入 csv, MySQLdb 和 sys 模块 ， 这 样 我 们 就 可 以 使 用 其 中 的 方法 
来 与 MySQL 数据 库 进 行 交 互 ， 并 将 查询 结果 写 入 一 个 CSV 文件 了 。 

第 6 行 代码 使 用 sys 模块 在 命令 行 中 读 取 文件 的 路 径 和 名 称 ， 并 将 其 赋 给 变量 output | 
file, 

第 8 行 代码 使 用 MysQLdb 的 connect() 方法 连接 到 my. suppliers, zi dl 1E A He Bi TR 
创建 的 MySQL 数据 库 。 第 10 行 代 码 创 建 了 一 个 光标 ， 用 来 在 my_suppliers 数据 库 中 的 
Suppliers 数据 表 上 执行 SQL 语句 ， 并 将 修改 提交 到 数据 库 。 

第 12 行 代码 使 用 csv 模块 的 wirterO 方法 创建 了 filewriter HR, 

第 13 行 代码 创建 了 一 个 列表 变量 header， 其 中 包含 5 个 字符 串 ， 对 应 着 数据 表 中 的 列 标 
题 。 第 14 行 代码 使 用 filewriter 的 writerow() 方法 将 这 个 由 逗号 分 隔 的 字符 串 列表 写 入 
CSV 格式 的 输出 文件 。 数 据 库 查询 只 输出 数据 ， 不 输出 列 标题 ， 所 以 这 些 代 码 可 以 确保 输 
出 文件 中 的 各 列 有 列 标题 。 

第 16~18 行 代码 是 数据 库 查 询 ， 选 择 Cost 列 中 的 值 大 于 700.0 的 那些 行 ， 并 选择 这 些 行 中 
所 有 的 列 。 因 为 包含 在 3 个 双 引 号 之 间 ， 所 以 这 个 查询 可 以 分 布 在 多 行 之 内 。 用 3 个 双 引 
号 封装 查询 非常 有 助 于 将 查询 写成 易 读 的 形式 。 

第 19~21 行 代码 与 前 一 个 示例 中 的 代码 非常 相似 ， 不 同 之 处 是 前 一 个 示例 将 输出 打印 到 命 
令 行 窗口 或 终端 窗口 ， 这 个 示例 的 第 21 行 代码 将 输出 写 入 CSV 格式 的 输出 文件 。 

我 们 完成 了 Python 脚本 ， 现 在 可 以 使 用 脚本 从 Suppliers 数据 表 中 查询 出 特定 数据 ， 并 将 
查询 结果 写 入 CSV 格式 的 输出 文件 。 要 完成 这 个 操作 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 
按 回 车 键 : 


python 5db mysql write to file.py output_files\5output.csv 

在 命令 行 窗口 或 终端 窗口 中 你 不 会 看 到 任何 输出 ， 但 是 你 可 以 打开 输出 文件 Soutput.csv 查 
看 一 下 结果 。 

你 可 以 看 到 ， 输 出 文件 中 包含 一 个 标题 行 ， 其 中 有 5 个 列 标题 ， 文 件 中 还 有 数据 表 中 的 4 
行 数据 ， 其 中 Cost 列 中 的 值 大 于 700.0。Excel 会 将 购买 日 期 列 中 的 日 期 格式 化 为 MM/DD/ 
YYYY, Cost 列 中 的 值 不 包含 喜 号 或 美元 符号 ， 如 果 需 要 的 话 ， 对 这 些 值 进行 格式 化 也 非 
HAD o 

向 数据 表 中 加 载 数据 和 从 数据 表 中 查询 数据 是 对 数据 表 常 用 的 两 种 操作 。 另 外 一 种 常用 操 
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作 是 更 新 数据 表 中 已 有 的 行 。 下 一 个 示例 将 处 理 这 种 情况 ， 介 绍 如 何 更 新 表 中 已 有 的 行 。 


4.2.3 ”更 新 表 中 记录 


上 一 个 示例 介绍 了 如 何 使 用 CSV 输入 文件 向 一 个 MySQL 数据 表 中 批量 添加 数据 ， 以 及 如 
何 将 SQL 查询 结果 写 入 CSV 输出 文件 。 但 有 些 时 候 ， 我 们 不 需要 向 表 中 加 载 新 数据 或 进 


行 查 询 ， 














而 是 需要 更 新 表 中 已 有 的 行 。 


幸运 的 是 ， 我 们 可 以 重新 使 用 前 面 介 绍 的 技术 ， 从 CSYV 输入 文件 中 读 取 数据 来 更 新 表 中 
的 行 。 实 际 上 ， 我 们 要 为 SQL 语句 组 合 一 行 数据 ， 然 后 对 于 CSV 输入 文件 中 的 每 一 行 数 
据 运 行 一 次 SQL 语句 ， 这 种 技术 与 前 一 个 示例 是 完全 一 样 的 。 只 是 SQL 语句 有 所 变化 ， 
从 INSERT 语句 变 为 了 UPDATE 语句 。 


我 们 已 经 熟悉 了 如 何 使 用 CSV 输入 文件 将 数据 加 载 到 数据 表 中 ， 下 面 学 习 如 何 使 用 CSV 

















输入 文件 更 新 MySQL 数据 表 中 已 有 的 记录 。 要 完成 这 个 操作 ， 在 文本 编辑 器 中 输入 下 列 
代码 ， 然 后 将 文件 保存 为 6db_mysql_update_from_csv.py: 


ANAUNPRPWNPR 


Ke) 








#!/usr/bin/env python3 
import csv 

import MySQLdb 

import sys 


# CSV 输 入 文件 的 路 径 和 文件 名 
input file = sys.argv[1] 

# 连接 MySQL 数 据 库 
con = MySQLdb.connect(host-'localhost', port-3306, db-'my suppliers', V 
user-'root', passwd='my_password' ) 

c = con.cursor() 








# 读 取 CSV 文 件 并 更 新 特定 的 行 
file reader = csv.reader(open(input file, 'r', newline=''), delimiter=',') 
header = next(file reader, None) 
for row in file reader: 
data - [] 
for column index in range(len(header)): 
data.append(str(row[column index]).strip()) 
print(data) 
c.execute("""UPDATE Suppliers SET Cost=%s, Purchase Date-?s V 
WHERE Supplier  Name-9s;""", data) 
con.commit() 
# 查询 Suppliers 表 
c.execute("SELECT * FROM Suppliers") 
rows = c.fetchall() 
for row in rows: 
output - [] 
for column index in range(len(row)): 
output.append(str(row[column index])) 
print(output) 





这 个 示例 中 的 所 有 代码 看 上 去 都 很 熟悉 。 第 2-4 行 代 码 导 入 了 3 个 Python 内 置 模块 ， 这 样 
我 们 就 可 以 使 用 其 中 的 方法 来 读 取 CSV 输入 文件 、 与 MySQL 数据 库 进行 交互 和 读 取 命 令 








行 输入 。 第 7 行 代码 将 CSV 输入 文件 的 路 径 名 赋 给 变量 input_file。 


第 9 行 代码 与 my_suppliers 数据 库 建立 连接 ， 使 用 与 前 一 个 示例 中 同样 的 连接 参数 。 第 
11 行 代码 创建 了 一 个 光标 对 象 ， 用 来 执行 SQL 查询 ， 并 将 修改 提交 到 数据 库 。 
第 15-24 行 代 码 与 本 章 第 一 个 示例 中 的 代码 几乎 是 相同 的 。 唯 一 的 明显 区 别 是 在 第 21 行 ， 
UPDATE 语句 代替 了 原来 的 INSERT 语句 。 在 UPDATE 语句 中 ， 你 必须 指定 你 想 更 新 哪 一 条 记 
录 和 哪 一 个 列 属性 。 在 这 个 例子 中 ， 我 们 想 为 一 组 特定 的 Supplier Names 更 新 Cost 值 和 
Purchase Date 值 。 像 前 面 的 示例 一 样 ，UPDATE 语句 中 需要 几 个 值 ， 就 需要 几 个 Ms 占 位 符 
表示 出 查询 中 的 值 的 位 置 ，CSYV 输入 文件 中 数据 的 顺序 也 要 同 查询 中 属性 的 顺序 一 样 。 在 
这 个 例子 中 ， 查 询 中 的 属性 从 左 到 右 分 别 是 Cost, Purchase Date 和 Supplier Name; 所 
LA, CSV 输入 文件 中 的 列 从 左 到 右 也 应 该 是 成 本 、 购 买 日 期 和 供应 商 姓名 。 

最 后 ， 第 25~31 行 代码 和 前 面 示 例 中 这 部 分 的 代码 基本 相同 。 这 些 代码 从 Suppliers 表 中 取 
出 所 有 行 ， 然 后 在 命令 行 窗口 或 终端 窗口 中 打印 出 每 一 行 ， 并 使 用 一 个 空格 分 隔 每 一 列 。 
现在 我 们 需要 一 个 CSV 输入 文件 ， 其 中 包含 着 要 用 来 更 新 数据 表 中 某 些 记录 的 数据 : 


(D 打开 Excel。 
(2) 添加 如 图 4-15 中 所 示 的 数据 。 
(3) 将 文件 保存 为 data_for_updating_mysql.csv. 


































































































= mm 
A B C D E F 
1 [Cost |Purchase Date Supplier Name 
2 600 2014-01-22 Supplier X 
3 200 2014-02-01 Supplier Y 
4 
5 
6 
¥ 
8 
9 
10 
11 k 











4-15; 文件 data_for_updating_mysql.csv 中 的 示例 数据 , 显示 在 Excel 工作 表 中 





现在 你 已 经 完成 了 Python 脚本 和 CSV 输入 文件 ， 可 以 使 用 脚本 和 输入 文件 来 更 新 
Suppliers 数据 表 中 的 某 些 行 了 。 要 完成 这 个 操作 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 按 回 
车 键 : 











python 6db mysql update from csv.py data for updating mysql.csv 


在 Windows 系统 中 ， 你 可 以 看 到 如 图 4-16 所 示 的 输出 被 打印 到 命令 行 窗口 上 。 前 两 行 是 
CSV 文件 中 的 数据 ， 其 余 各 行 是 记录 更 新 之 后 数据 表 中 的 数据 。 












































fl Command Prompt =o x 
Microsoft windows [version 6.1.7601] 
Copyright (c) 2009 Microsoft Corporation. All rights reserved. 


:\Users\Clinton>cd Desktop 


IC 

IC 

[ 

[ 

[ s , "2014-01-22 ] 
['supplier x', '001-1001', '2 ', '600.0', '2014-01-22'] 
['Supplie ', '001-1001', ' 7 , :2014-01-22'] 
Masa C, ,001-1001', ' 67' '2014-01-22'] 
[ 
[ 
[ 
[ 
L 
[ 
| 


supplier 


， '50-9501' 7 00. 2014-02-01" ] 
"supplier 


, '50-9501" , ‘200. 2014-02-01" ] 

'50-9505" 25 200; 2014-02-01 ' | 

"50-9505" i ake .0', '2014-02-01'] 

, :920-4803 Sars .0', '2014-02-03'] 
'920-4804', ', '615.0', '2014-02-10'] 

'920-4805"' 3321" "2014-02-17" ] 

， '920-4806', '3321', '1006020.0', '2014-02-24'] 


“Supplier 
"supplier 
"supplier 
“supplier 
"Supplier 
"Supplier 


NNNN<<<< 


Ic: \Users\clinton\Desktop> 




















4-16: 使 用 CSV 文件 中 的 数据 更 新 MySQL 数据 表 中 的 行 





这 个 输出 展示 了 来 自 于 CSV 输入 文件 中 除 标 题 行 之 外 的 两 行 数据 。 你 可 以 识别 出 这 两 
个 列表 ， 因 为 每 个 列表 都 包含 在 方 括 号 ([]) 之 间 ， 列 表 中 的 每 个 值 以 有 逗号 分 隔 。 对 于 
Supplier X, Cost 值 为 600，Purchase Date 值 为 2014-01-22。 对 于 Supplier Y, Cost 值 为 
200, Purchase Date 值 为 2014-02-01, 
在 这 两 行 下 面 ， 输 出 还 展示 了 执行 更 新 之 后 从 数据 表 中 取出 的 12 行 数据 。 每 行 数据 占 一 
行 ， 行 中 的 值 由 空格 分 隔 。 回 忆 一 下 ，Supplier X 原来 的 Cost 值 和 Purchase Date 值 分 别 是 
500, 750 和 2014-01-20。 同 样 ，Supplier Y 原来 的 Cost {A fll Purchase Date 值 分 别 是 250、 
125 和 2014-01-30、2013-02-03。 从 打印 在 命令 行 窗 口中 的 输出 可 以 看 出 ，Supplier X 和 
Supplier Y 中 的 这 些 值 已 经 被 修改 成 了 CSV 输入 文件 中 提供 的 新 值 。 
为 了 确认 MySQL 数据 表 中 与 Supplier X 和 Supplier Y 相关 的 8 行 数据 已 经 被 更 新 ， 现 在 
回 到 MySQL 命令 行 客户 端 ， 输 入 以 下 命令 ， 然 后 按 回 车 键 : 

SELECT * FROM Suppliers; 
按 了 回 车 键 之 后 ， 你 可 以 看 到 一 个 表格 ， 其 中 列 出 了 Suppliers 数据 表 中 的 各 列 ， 以 及 每 
列 中 的 12 行 数据 ， 如 图 4-17 所 示 。 你 会 看 到 与 Supplier X 和 Supplier Y 相关 的 8 行 记 录 
已 经 被 更 新 为 CSV 输入 文件 中 提供 的 数据 。 
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E MySQL 5.6 Command Line Client 

Enter password: g 

welcome to the MySQL monitor. Commands end with ; or \g. 
Your MySQL connection id is 124 f 

Server version: 5.6.21 MySQL Community Server (GPL) 


Copyright (c) 2000, 2013, oracle and/or its affiliates. All rights reserved. 


oracle is a registered trademark of oracle Corporation and/or its 


affiliates. Ot 
owners . 


er names may be trademarks of their respective 


Type 'help;' or 'Ah' for help. Type 'Nc' to clear the current input statement. 


mysql> use my suppliers; 
Database changed 
mysql» SELECT * FROM Suppliers; 


Invoice 


Supplier x 
supplier x 
Supplier x 
Supplier x 
supplier Y 
Supplier Y 
supplier Y 
supplier Y 
supplier Z 

Supplier Z 
Supplier Z 

supplier Z 


EI TRENDS B E NL MEI ET 
SIw w 


12 rows in set 00 sec) 


mysql> 


























& 4-17: Suppliers 表 中 的 记录 更 新 后 








本 章 介 绍 了 很 多 基础 知识 ， 不 仅 包 括 如 何 使 用 sqLite3 创建 内 存 数 
库 ， 以 及 如 何 与 数据 库 中 的 数据 表 进 行 交 互 ， 还 包括 创建 MySQL 数据 库 和 数据 表 、 使 用 
Python 访问 MySQL 数据 库 和 数据 表 、 从 CSV 文件 
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， 使 用 MySQL 命令 行 客户 端 进行 查询 的 结果 
居 库 和 持久 化 数据 
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加 载 数据 、 使 用 


CSV 文件 中 的 数据 更 新 MySQL 数据 表 中 的 记录 ， 以 及 将 查询 结果 写 人 CSV 输出 文件 的 
方法 。 如 果 你 一 直 跟 随 本 章 内 容 练习 示例 代码 ， 那 么 你 应 该 完成 了 6 个 新 的 Python 脚本 ! 











练习 本 章 中 示例 代码 的 最 大 收获 是 ， 你 现在 已 经 很 好 地 掌握 了 存 取 数 据 库 
术 ， 而 数据 库 是 商业 中 最 常用 的 一 种 数据 存储 工具 。 本 章 重 点 
统 ， 但 是 我 们 在 开头 曾 提 到 过 ， 现 在 有 很 多 他 数据 库 系统 也 用 于 商业 中 。 


















































数据 的 技 


介绍 了 MySQL 数据 库 系 
例如 ， 你 可 





以 了 解 一 下 PostgreSQL 数据 库 系 统 (http://www.postgresglorg), ， 在 Psycopg (http://initd. 
org/psycopg) 和 PyPI (https://pypi.python.org/pypi/psycopg2) 这 两 个 网 站 ， 你 都 可 以 找到 























关于 PostgreSQL 的 通用 Python 连接 适配器 的 信息 。 同 
据 库 A Be (https://www.oracle.com/database/index.html) , 
sourceforge.net) 和 PyPI (https://pypi.python.org/pypi/cx, Oracle) 
找到 关于 Oracle 连接 适配器 的 信息 。 此 外 ， 还 有 一 
SQLAlchemy (http://www.sqlalchemy.org)， 可 以 同时 支持 Python2 和 Python3 
SQLite, MySQL, PostgreSQL, Oracle 和 若干 其 他 数据 库 系 名 


到 此 为 止 ， 我 们 学 习 了 在 CSV 文件 、Excel ETEERIE 
法 ， 这 是 商业 中 最 常用 的 3 种 数据 源 。 下 一 步 ， 我 人 
运用 这 些 技术 解决 具体 问题 。 首 先 ， 我们 讨论 如 何在 一 个 大 的 文件 集合 中 找 至 
项 目 。 其 次 ， 第 二 个 应 用 程序 演示 了 在 输入 文件 中 为 任意 数目 
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统 的 适配器 。 
! 存 取 、 浏 
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样 ， 你 也 可 以 了 解 一 下 Oracle 数 
在 SourceForge (http://cx-oracle. 
这 两 个 网 站 ， 你 可 以 
个 常用 的 Python SQL 工具 箱 ， 名 为 





其 中 包括 

















i 和 处 理 数 据 的 方 
| 将 介绍 几 个 应 用 程序 ， 








看 如 何 综 合 


I 一 组 特定 的 
的 分 类 计算 统计 量 的 方法 。 

















最 后 ， 第 三 个 应 用 程序 演示 了 如 何 分 析 文本 文件 并 为 任意 数目 的 分 类 计算 统计 量 。 在 学 习 
了 这 些 示例 之 后 ， 你 应 该 可 以 掌握 如 何 综合 运用 在 本 书 中 学 到 的 技能 来 解决 具体 问题 了 。 


4.3 ”本章 练习 


(1) 练习 从 CSV 文件 向 数据 表 中 加 载 数据 ， 创 建 一 个 新 表 和 一 个 新 的 输入 文件 ， 并 编写 一 
个 新 的 Python 脚本 将 输入 数据 加 载 到 表 中 ， 使 用 SQLite3 数据 库 和 MySQL 数据 库 都 可 
以 。 

(2) 练习 在 SQLite3 数据 库 或 MySQL 数据 库 中 对 数据 表 执 行 查询 ， 并 将 查询 结果 写 入 CSV 
输出 文件 。 创 建 一 个 新 的 Python 脚本 ， 其 中 包含 一 个 新 的 数据 库 查 询 ， 从 你 创建 的 一 
个 数据 表 中 提取 数据 。 人 参考 并 修改 MySQL 那 一 节 中 演示 如 何 写 入 输出 文件 的 脚本 ， 将 
标题 行 和 你 查询 出 的 数据 写 入 输出 文件 。 

(3) 练习 使 用 CSV 文件 中 的 数据 更 新 数据 表 中 的 记录 ， 使 用 SQLite3 数据 库 和 MySQL Zi 
据 库 都 可 以 。 创 建 一 个 新 表 ， 并 向 表 中 加 载 数 据 。 创 建 一 个 新 的 CSV 文件 ， 保 存 用 来 
更 新 表 中 特定 记录 的 数据 。 创 建 一 个 新 的 Python 脚本 ,使 用 CSV 文件 中 的 数据 更 新 表 
中 特定 的 记录 。 
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应 用 程序 





5.1 在 一 个 大 文件 集合 中 查找 一 组 项 目 


每 个 公司 都 在 各 自 不 同 的 业务 过 程 中 积累 了 大 量 文件 ， 在 供应 商 、 客 户 、 内 部 运营 和 其 他 
业务 过 程 中 ， 可 能 存在 着 大 量 历史 文件 。 正 如 本 书 已 经 讨论 过 的 ， 这 些 数据 可 能 被 保存 在 
f& CSV 文件 这 样 的 带 分 隔 符 的 平面 文件 中 ， 可 能 被 保存 在 Excel 工作 短 和 电子 表格 中 ， 也 
可 能 被 保存 在 其 他 存储 系统 中 。 保 存 这 些 文件 是 有 价值 的 ， 因 为 它们 可 以 提供 数据 用 来 分 
析 ， 有 助 于 跟踪 随 着 时 间 发 生 的 变化 ， 还 可 以 为 决策 提供 支持 。 


但 是 当 你 有 大 量 历史 数据 的 时 候 ， 要 找到 真正 需要 的 数据 是 非常 困难 的 。 想 象 一 下 ， 假 如 
你 有 300 个 Excel 工作 短 和 200 个 CSV 文件 〈 你 一 直 交 替 使 用 这 两 种 类 型 的 文件 )， 里 面 
包含 着 过 去 5 年 有 过 购买 行为 的 供应 商 数据 。 现 在 你 和 一 个 供应 商 正在 进行 谈判 ， 你 想 找 
到 一 些 对 这 次 谈判 有 用 的 信息 的 历史 记录 。 


当然 ， 你 可 以 打开 每 个 文件 ， 找 出 你 需要 的 记录 ， 然 后 将 记录 复制 粘贴 到 一 个 新 文件 中 。 
但 是 ， 这 个 过 程 太 痛 苗 了 ， 既 浪费 时 间 ， 又 容易 出 错 。 这 正 是 展示 你 刚 学 会 的 Python 编程 
技能 的 一 个 绝 好 机 会 ， 你 可 以 自动 化 地 完成 整个 过 程 ， 既 节省 时 间 ， 又 不 会 出 错 。 


为 了 模拟 在 一 个 包含 了 几 百 个 Excel TEREA CSV 文件 的 历史 文件 夹 中 进行 搜索 ， 我 们 需 
要 创建 这 个 历史 文件 夹 ， 以 及 一 些 Excel TEEF CSV 文件 。 要 完成 这 个 操作 ， 需 要 按 以 
下 步骤 进行 。 
(1) 切换 到 桌面 。 
(2) 在 桌面 上 点 鼠标 右键 。 

(3) 选择 “新 建 ”， 然 后 选择 “文件 夹 "， 在 桌面 上 新 建 一 个 文件 夹 。 
(4) 将 新 建 的 文件 夹 命 名 为 “file_archive”。 
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现在 你 的 桌面 上 应 该 有 一 个 名 为 fle_archive 的 新 文件 夹 ， 如 图 5-1 所 示 。 























5-1: 在 桌面 上 新 建文 件 夹 fle_archive 


(5) 打开 Excel， 输 入 图 5-2 中 的 数据 。 
这 个 CSV 文件 有 5 列 : Item Number, Description, Supplier, Cost 和 Date。 你 可 以 看 
到 在 第 一 列 中 是 只 有 部 件 才 有 项 目 编号 。 部 件 服务 和 部 件 维修 有 独立 的 记录 ， 但 是 服务 
记录 和 维修 记录 中 设 有 项 目 编号 。 



































Was 
C D E 
1 ltem Number |Description Supplier Cost Date 
2 1234 Widget 1 Supplier A $1,100.00 6/2/2012 
3 Widget 1 Service Supplier A $600.00 6/3/2012 
4 2345 Widget 2 Supplier A $2,300.00 6/17/2012 
5 Widget 2 Maintenance Supplier A $1,000.00 6/30/2012 
6 3456 Widget 3 Supplier B $950.00 7/3/2012 
7 4567 Widget 4 Supplier B $1,300.00 7/4/2012 
8 5678 Widget 5 Supplier B $1,050.00 7/11/2012 
9 Widget 5 Service Supplier B — $550.00 7/15/2012 
10 6789 Widget 6 Supplier C $1,175.00 7/23/2012 
11 7890 Widget 7 Supplier C $1,200.00 7/27/2012 














5-2; CSV 文件 supplies 2012.csv 中 的 示例 数据 ， 显 示 在 Excel 工作 表 中 





(6) 将 文件 保存 在 file archive 文件 夹 中 ， 命 名 为 supplies 2012.csv。 


好 了 ， 现 在 我 们 有 了 一 个 CSV 文件 。 下 一 步 ， 需 要 创建 一 个 Excel 工作 短 。 要 快速 完 
成 这 个 操作 ， 可 以 使 用 刚 建 好 的 CSV 文件 。 


(7) 在 工作 表 supplies 2012 中 ， 将 Date 列 中 的 日 期 由 2012 改 为 2013。 
工作 表现 在 应 该 如 图 5-3 所 示 。 你 可 以 看 到 ， 只 有 日 期 发 生 了 变化 。 
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a ns = 
C D E F 
Item Number | Supplier Cost Date 
2 1234 Widget 1 Supplier A $1,100.00 6/2/2013 
3 Widget 1 Service Supplier A $600.00 6/3/2013 
4 2345 Widget 2 Supplier A $2,300.00 6/17/2013 
5 Widget 2 Maintenance Supplier A $1,000.00 6/30/2013 
6 3456 Widget 3 Supplier B — $950.00 7/3/2013 
7 4567 Widget 4 Supplier B $1,300.00 7/4/2013 
8 5678 Widget 5 Supplier B $1,050.00 7/11/2013 
9 Widget 5 Service Supplier B — $550.00 7/15/2013 
10 6789 Widget 6 Supplier C $1,175.00 7/23/2013 
11 7890 Widget 7 Supplier C $1,200.00 7/27/2013 
图 5-3. 将 supplies 2012 中 的 日 期 由 2012 改 成 2013， 添 加 一 个 2013 年 的 工作 表 


(8) 将 工作 表 的 名 称 改 为 supplies_2013。 
为 了 使 这 个 文件 成 为 一 个 具有 多 个 工作 表 的 工作 得， 下 面 再 添加 一 个 新 的 工作 表 。 


(9) 点 击 左下 角 的 + 按钮， 添加 一 个 新 的 工作 表 。 

(10) 将 新 工作 表 命 名 为 supplies_2014。 

(11) 将 supplies_2013 工作 表 中 的 数据 复制 粘贴 到 supplies_2014 工作 表 中 。 
(12) 将 Date 列 中 的 日 期 由 2013 修改 为 2014。 


supplies 2014 工作 表 如 图 5-4 所 示 。 





























BN m 

C D E F 
1 |Item Number |Description Supplier Cost Date 
2 1234 Widget 1 Supplier A $1,100.00 6/2/2014 
3 Widget 1 Service Supplier A — $600.00 6/3/2014 
4 2345 Widget 2 Supplier A $2,300.00 6/17/2014 
5 Widget 2 Maintenance Supplier A $1,000.00 6/30/2014 
6 3456 Widget 3 Supplier B $950.00 7/3/2014 
7 4567 Widget 4 Supplier B $1,300.00 7/4/2014 
8 5678 Widget 5 Supplier B $1,050.00 7/11/2014 
9 Widget 5 Service Supplier B — $550.00 7/15/2014 
10 6789 Widget 6 Supplier C $1,175.00 7/23/2014 
11 7890 Widget 7 Supplier C $1,200.00 7/27/2014 

图 5-4: supplies 2014 工作 表 
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你 可 以 看 到 ， 只 有 日 期 发 生 了 变化 ， 也 就 是 说 ， 两 个 工作 表 中 的 数据 除了 Date 列 中 
的 日 期 ， 其 余 是 完全 一 样 的 。 
(13) 将 Excel 文件 保存 在 file_archive 文件 夹 中 ， 命 名 为 supplies.xls。 
(14) 最 后 ， 这 是 一 个 可 选 步骤 ， 如 果 你 可 以 将 文件 保存 成 Excel 工作 得 格式 (xlsx), FTIF 
“Save As” 对 话 框 ， 将 文件 保存 为 supplies.xlsx。 


现在 ， 在 file_archive 文件 夹 中 ， 你 应 该 有 3 个 文件 。 


。 CSV 文件 : supplies_2012.csv 
。 Excel 文件 : supplies.xls 
。 Excel 工作 短文 件 (可 选 ) : supplies.xlsx 


如 果 你 没有 创建 可 选 的 .xlsx 文件 ， 示 例 代 码 也 可 以 工作 ， 只 是 会 缺少 一 些 输出 。 这 3 个 
文件 可 以 作为 我 们 积累 的 历史 文件 ， 但 是 请 记 住 ， 示 例 代 码 可 以 扩展 为 处 理 任意 多 的 CSV 
文件 和 Excel 文件 ， 只 要 计算 机 能 力 足够 '。 如 果 你 有 成 百 上 千 个 CSV 或 Excel 历史 文件 
那么 你 仍然 可 以 使 用 这 个 示例 中 的 代码 作为 具体 搜索 问题 的 起 点 ， 然 后 扩展 代码 。 


现在 我 们 已 经 有 了 用 来 搜索 记录 的 文件 夹 和 文件 ， 还 需要 以 某 种 方式 来 识别 要 搜索 的 记 
东 。 例 如 ， 我 们 要 搜索 特定 的 数值 项 目 。 如 果 只 想 搜 索 很 少 的 数值 项 目 ， 就 可 以 使 用 列表 
或 元 组 变量 在 Python 脚本 中 将 条 件 写 死 (例如 :; items to look for = ['1234', '2345']), 
但 是 当 要 搜索 的 数值 项 目 增 加 时 ， 这 种 方法 就 会 变 得 笨重 其 至 不 可 行 。 因 此 ， 我 们 要 使 用 
以 前 向 脚本 中 传递 输入 数据 的 方法 ， 并 将 数值 项 目 放 在 CSV 输入 文件 的 一 列 中 。 使 用 这 
种 方法 ， 如 果 你 想 搜 索 几 十 、 几 百 甚 至 几 千 个 数值 项 目 ， 都 可 以 将 它们 写 在 CSV 输入 文 
件 中 ， 然 后 将 这 些 输入 数据 读 入 Python 脚本 。 这 种 输入 方法 具有 很 好 的 扩展 性 ， 特 别 是 与 
将 条 件 写 死 在 Python 脚本 中 的 方法 相 比 。 


要 列 出 识别 搜索 记录 的 数值 项 目 : 


(1) 打开 Excel， 输 入 图 5-5 中 的 数据 ， 
(2) 将 文件 保存 为 item_numbers_to_find.csv。 










































































TE 1: 计算 机 能 处 理 多 少 文件 主要 取决 于 随机 存 取 存 储 器 CRAM) 和 中 央 处 理 单元 (CPU). Python 将 要 处 
里 的 数据 保存 在 RAM 中 ， 所 以 当 数 据 体积 大 于 计算 机 RAM 时 ， 计 算 机 就 会 将 数据 写 在 磁盘 中 ， 而 
不 是 RAM 中 。 向 磁盘 中 写 数 据 的 速度 要 明显 慢 于 在 RAM 中 存 取 数 据 ， 所 以 计算 机 会 变 得 非常 慢 ， 
甚至 看 上 去 没有 反应 。 根据 你 的 数据 量 , 如 果 你 觉得 会 遇 到 这 种 问题 ,就 应 该 使 用 有 更 多 RAM 的 机 器 ， 
或 者 向 机 器 中 加 入 更 多 的 RAM， 或 者 将 数据 分 成 小 块 来 处 理 。 你 也 可 以 使 用 分 布 式 系 统 ， 将 很 多 计 
算 机 连接 在 一 起 作为 一 个 整体 使 用 ， 但 是 这 已 经 超出 了 本 书 范围 。 
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7. Formatting” Table” 





C D E F G 
1 1234 
2 2345 
3 4567 
4 6789 
5 7890 
6 
了 
8 
9 


ES 
ho 


4 














图 5-5; item numbers to find.csv 中 的 示例 数据 ， 显 示 在 Excel 工作 表 中 


你 可 以 看 到 ， 我 们 要 搜索 的 5 个 数值 项 目 是 1234、2345、4567、6789 和 7890。 它 们 都 被 
写 在 第 A 列 ， 没 有 标题 行 。 其 实 可 以 包括 标题 行 ， 但 是 没有 必要 ， 因 为 我 们 知道 要 使 用 哪 
一 列 ， 并 且 知 道 这 列 数 值 的 意义 。 而 且 ， 如 果 添 加 了 标题 行 ， 还 需要 多 写 一 些 代码 来 删除 
它 ， 因 为 我 们 不 会 搜索 输入 文件 标题 行 中 的 数据 。 如 果 将 来 有 人 或 系统 提供 给 你 的 数值 列 
表 中 包括 标题 行 ， 那么 你 可 以 使 用 在 前 面 的 章 市 中 学 会 的 去 掉 标 题 行 的 方法 ， 将 其 读 入 一 
个 变量 ， 然 后 不 使 用 这 个 变量 就 可 以 了 。 如 果 你 自己 创建 列表 ， 就 应 该 不 包括 标题 行 ， 这 
样 做 可 以 简化 进行 数据 处 理 的 代码 ， 你 可 以 根据 文件 名 称 和 文件 所 在 的 项 目 文件 夹 名 称 回 
想起 数据 的 意义 。 


至 此 ， 我 们 已 经 理解 了 搜索 任务 ， 并 且 创 建 了 执行 示例 代码 所 需 的 文件 和 文件 夹 。 简 而 言 
之 ， 我 们 的 任务 是 搜索 fle_archive 文件 夹 ， 找 出 包含 我 们 所 需 的 数值 项 目的 文件 ， 当 找到 
一 个 数值 项 目 时 ， 需 要 把 包含 这 个 项 目的 整 行 数据 写 入 输出 文件 。 通 过 这 种 方式 ， 你 可 以 
在 历史 信息 中 找 出 所 有 可 以 用 于 与 供应 商谈 判 的 信息 ， 这 些 信息 都 与 数值 项 目 相 关 。 我 们 
要 搜索 3 个 历史 文件 : 一 个 CSV 文件 、 一 个 Excel 文件 (xls) 和 一 个 Excel 工作 短文 件 
(.xlsx)。 这 3 个 文件 构成 了 示例 代码 能 够 处 理 的 文件 的 最 小 集 ， 脚 本 代码 可 以 扩展 为 处 理 
任意 数量 的 文件 ， 只 要 计算 机 能 力 足 够 。 我 们 还 建立 了 一 个 独立 的 CSV 文件 ， 包 含 要 搜 
索 的 数值 项 目 。 在 这 个 文件 中 ， 可 以 包含 成 百 上 千 甚 至 更 多 的 数值 项 目 ， 这 种 输入 方法 同 
样 可 以 帮助 我 们 扩展 搜索 能 


我 们 已 经 创建 了 file archive 文件 夹 和 所 有 输入 文件 ， 现 在 需要 做 的 就 是 编写 Python 代码 
来 执行 搜索 任务 。 要 完成 这 个 操作 ， 在 文本 编辑 器 中 输入 下 列 代 码 ， 然 后 将 文件 保存 为 


lsearch_for_items_write_found.py: 
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#!/usr/bin/env python3 
import csv 
import glob 
import os 
import sys 
from datetime import date 
from xlrd import open workbook, xldate as tuple 
item numbers file - sys.argv[1] 
path to folder = sys.argv[2] 
output file - sys.argv[3] 
item numbers to find - [] 
with open(item numbers file, 'r', newline='') as item numbers csv file: 
filereader = csv.reader(item numbers csv file) 
for row in filereader: 
item numbers to find.append(row[0]) 
sprint(item numbers to find) 
filewriter = csv.writer(open(output file, 'a', newline='')) 
file counter - 0 
line counter - 0 
count of item numbers = 0 
for input file in glob.glob(os.path.join(path to folder, '*.*')): 
file counter += 1 
if input file.split('.')[1] == 'csv': 
with open(input file, 'r', newline='') as csv in file: 
filereader = csv.reader(csv in file) 
header = next(filereader) 
for row in filereader: 
row of output = [ ] 
for column in range(len(header)): 
if column == 3: 
cell value = str(row[column]).lstrip('$').V 
replace(',','').strip() 
row of output.append(cell value) 
else: 
cell value - str(row[column]).strip() 
row of output.append(cell value) 
row of output.append(os.path.basename(input file)) 
if row[0] in item numbers to find: 
filewriter.writerow(row of output) 
count of item numbers += 1 
line counter += 1 
elif input file.split('.')[1] == 'xls' or V 
input file.split('.')[1] == 'xlsx': 
workbook = open workbook(input file) 
for worksheet in workbook.sheets(): 
try: 
header = worksheet.row values(0) 
except IndexError: 
pass 
for row in range(1, worksheet.nrows): 
row of output = [ ] 
for column in range(len(header)): 
if worksheet.cell type(row, column) -- 3: 
cell value = Y 





55 xldate as tuple(worksheet.cell(row,column)| 


56 . value ,workbook.datemode) 

57 cell_value = str(date(*cell_value[0:3])).strip() 
58 row_of_output.append(cell_value) 

59 else: 

60 cell_value = \ 

61 str(worksheet.cell value(row,column)).strip() 

62 row of output.append(cell value) 

63 row of output.append(os.path.basename(input file)) 

64 row of output.append(worksheet.name) 

65 if str(worksheet.cell(row,0).value).split('.')[0].strip() V 
66 in item numbers to find: 

67 filewriter.writerow(row of output) 

68 count of item numbers += 1 

69 line counter += 1 


70 print('Number of files:', file counter) 
71 print('Number of lines:', line counter) 
72 print('Number of item numbers:', count of item numbers) 


这 个 脚本 比 前 面 章节 中 的 任何 一 个 脚本 都 要 长 ， 但 是 如 果 你 完成 了 前 面 章 节 中 的 示例 代 
码 ， 那 么 应 该 对 这 个 脚本 中 的 所 有 代码 都 很 熟悉 了 。 第 2~7 行 代码 导入 我 们 读 取 和 处 理 输 
入 数据 所 需 的 模块 和 方法 。 这 里 需要 导入 csv. glob, os, string 和 sys 模块 ， 来 分 别 读 
写 CSV 文件 、 读 取 一 个 文件 夹 中 的 多 个 文件 、 在 一 个 特定 路 径 中 搜索 文件 、 处 理 字符 串 
变量 和 在 命令 行 中 输入 文件 名 。 像 在 第 3 章 中 一 样 ， 这 里 还 要 导入 datetime 模块 的 date 
方法 和 xLrd 模块 的 xldate_as_tuple 方法 ， 确 保 我 们 从 输入 文件 中 提取 的 任何 日 期 数据 都 
能 以 特定 的 形式 保存 到 输出 文件 中 。 

第 8、9、10 行 代码 读 取 我 们 在 命令 行 中 提供 的 3 个 输入 参数 ， 分 别 是 包含 要 搜索 的 数值 
项 目的 CSV 文件 的 路 径 名 、 包 含 要 搜索 的 文件 的 file archive 文件 夹 的 路 径 、 包 含 在 历史 
文件 中 搜索 到 的 与 数值 项 目 相关 的 信息 行 的 CSV 输出 文件 的 路 径 名 。 这 里 将 这 3 个 输入 


A IRA 3 个 独立 的 变量 ， 分 别 是 item_numbers_fiLe、path_to_foLder、 和 output_file, 


要 在 代码 中 使 用 我 们 想 要 搜索 的 数值 项 目 ， 需 要 将 它们 从 CSV 输入 文件 转换 成 合适 的 数 
据 结 构 ， 比 如 一 个 列表 。 第 11~15 行 代 码 完成 了 这 个 转换 。 第 11 行 代 码 创 建 了 一 个 空 列 
K ;tem_numbers_to_find。 第 12 和 13 行 代码 使 用 csv 模块 的 reader() 方法 打开 CSV 输 
入 文件 ， 并 创建 了 一 个 filereader 对 象 读 取 文件 中 的 数据 。 第 14 行 代 码 创 建 了 一 个 for 
循环 ， 在 输入 文件 的 所 有 行 中 循环 。 第 15 行 代 码 使 用 列表 的 append() 方法 为 在 第 11 行 中 
创建 的 列表 添加 值 。 为 列表 添加 的 值 来 自 于 CSV 输入 文件 中 的 第 一 列 row[9]。 如 果 你 想 
看 一 下 追加 到 列表 中 的 数值 项 目 ， 想 在 运行 脚本 时 将 其 打印 到 屏幕 上 ， 那 么 就 可 以 将 第 16 
行 代码 中 print 语句 前 面 的 注释 符号 去 掉 。 

第 17 行 代码 使 用 csv 模块 的 write() 方法 以 追加 方式 ('a') 打开 一 个 CSV 输出 文件 ， 并 
创建 一 个 filewriter 对 象 ， 准 备 写 入 数据 到 输出 文件 。 

第 18、19 和 20 行 代码 创建 了 3 个 计数 变量 ， 来 跟踪 (a) 读 入 脚本 的 历史 文件 数量 ，(b) 
在 所 有 的 输入 文件 和 工作 表 中 读 出 的 行 数 ， 和 (e). 行 中 数值 项 目 是 我 们 要 搜索 的 数值 项 
目的 行 数 。 这 3 个 计数 变量 都 初始 化 为 0。 
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第 21 行 代码 是 外 部 for 循环 ， 在 历史 文件 夹 中 的 所 有 输入 文件 中 循环 。 这 行 代码 使 用 
os.path. join() 函数 和 glob.glob() 函数 来 在 file archive 文件 夹 中 找到 所 有 匹配 于 一 个 
特定 模式 的 文件 。file_archive 文件 夹 的 路 径 由 我 们 在 命令 行 中 提供 ， 包 含 在 变量 path_ 
to folder 中 。os.path.join() 函数 将 这 个 文件 夹 路 径 与 文件 夹 中 所 有 文件 的 文件 名 连接 
起 来 ， 这 些 匹 配 于 特定 模式 的 文件 名 由 gtob.gtob() 函数 进行 扩展 。 这 里 ， 我 们 使 用 模 
式 '*.*' 来 匹配 以 任意 扩展 名 结尾 的 任意 文件 名 。 在 这 个 例子 中 ， 因 为 我 们 创建 了 输入 
文件 夹 和 文件 ， 所 以 知道 文件 夹 中 的 文件 扩展 名 只 有 .csv、.xls 和 .xlsx。 如 果 你 只 想 搜 
索 CSV 文件 ， 那 么 可 以 使 用 '*.csv' ;如 果 你 只 想 搜索 xls 或 .xlsx 文件 ， 那 么 可 以 使 用 
'*,xls*'。 这 是 一 个 for 循环 ， 所 以 这 行 代码 的 其 他 语法 就 很 熟悉 了 。input_file 是 一 个 
占 位 符 名 称 ， 代 表 由 glob.glob() 函数 生成 的 列表 中 的 每 个 文件 。 


第 22 行 代码 对 于 读 入 脚本 的 每 一 个 输入 文件 ， 都 将 file counter 变量 的 值 增加 1。 在 所 
有 输入 文件 都 被 读 入 脚本 之 后 ，file_counter 就 是 读 入 的 输入 文件 的 总 数 。 


第 23 行 代 码 是 一 个 话语 句 ， 开 始 了 一 个 处 理 CSV 文件 的 代码 块 。 与 这 行 代码 同 级 的 是 
第 42 行 中 的 elif 语句 ， 它 开始 了 一 个 处 理 .xls 和 .xlsx 文件 的 代码 块 。 第 23 行 代码 使 用 
string 模块 的 spLit() 方法 将 每 个 输入 文件 的 路 径 名 按照 路 径 中 的 句点 〈.) 进行 分 割 。 例 
an, CSV 输入 文件 的 路 径 名 是 file_archive\supplies_2012.csv。 如 果 这 个 字符 串 按 照 句点 分 
割 ， 句 点 前 面部 分 的 索引 值 为 [9]， 句 点 后 面 的 索引 值 为 [1]。 这 行 代码 检验 句点 后 面 的 字 
TERR (索引 值 为 1) eG A csv, XWF CSV 输入 文件 这 行 代 码 为 真 。 因此， 第 24-41 行 代 
码 仅 对 于 CSV 输入 文件 执行 。 


第 24 和 25 行 代码 我 们 已 经 非常 熟悉 了 。 它 们 使 用 csv 模块 的 reader() 方法 打开 CSV Mi 
入 文件 ， 并 创建 了 一 个 filereader 对 象 ， 从 文件 中 读 取 数 据 。 

第 26 行 代码 使 用 next() 方法 读 取 输 入 文件 中 的 第 一 行 数据 ， 也 就 是 标题 行 ， 并 赋 给 变量 header, 
第 27 行 代码 创建 了 一 个 for 循环 ， 在 CSV 文件 中 余下 的 数据 行 之 间 循环 。 对 于 每 一 行 ， 
如 果 这 行 包含 我 们 要 搜索 的 数值 项 目 ， 那 么 我 们 就 需要 组 装 一 行 输出 写 入 输出 文件 。 为 了 
准备 组 装 这 行 输出 ， 第 28 行 代码 创建 了 一 个 空 列表 变量 row_of_output。 

第 29 行 代码 创建 了 一 个 for 循环 ， 在 输入 文件 一 个 给 定 行 的 各 列 之 间 循 环 。 这 行 代码 使 
用 range() 函数 和 Len() 函数 创建 了 一 个 CSV 输入 文件 各 列 的 索引 列表 。 因 为 输入 文件 中 
有 5 列 ， 所 以 column 变量 的 范围 是 从 0 到 4。 


第 30-36 行 代码 包含 一 个 if-else 语句 ， 对 不 同 列 中 的 值 进行 不 同 的 处 理 。if 代码 块 处 理 
索引 值 为 3 的 列 ， 也 就 是 第 四 列 Cost。 对 于 这 一 列 ， 先 使 用 Lstrip() 方法 剥离 字符 串 左 侧 
的 美元 符号 ， 然 后 使 用 replace() 方法 用 空 字 符 捉 禁 换 掉 字 符 串 中 的 逗号 (这样 可 以 有 效 
地 删除 逗号 )， 再 使 用 strip() 方法 剥离 字符 串 两 端的 空格 、 制 表 符 和 换行 符 。 在 这 些 处 理 
完成 之 后 ， 第 33 行 代码 将 最 后 的 值 追加 到 列表 row of. output 中 。 


else 代码 块 处 理 其 余 各 列 中 的 数据 。 对 于 这 些 值 ， 使 用 stripO 方法 剥离 字符 串 两 端的 空 
格 、 制 表 符 和 换行 符 ， 然 后 让 结果 追加 到 第 36 行 的 列表 row of output rp, 


第 37 行 代码 将 输入 文件 的 基础 文件 名 追加 到 列表 row_of_output 中 。 对 于 CSV 文件 ， 变 
量 input file 中 包含 的 字符 串 是 file_archive\supplies_2012.csv, os.path.basename 确 
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保 代 码 只 将 supplies 2012.csv 追加 到 列表 row of output 中 。 


至 此 ，CSV 输入 文件 中 的 第 一 行 数 据 被 读 入 到 脚本 中 ， 这 行 数据 中 的 每 一 列 都 进行 了 处 
理 ， 然 后 追加 到 列表 row of output 中 。 现 在 应 该 检验 这 一 行 中 的 数值 项 目 是 否 就 是 我 们 
要 搜索 的 数值 项 目 。 第 38 行 代码 进行 了 这 个 判断 。 这 行 代 码 检验 这 一 行 数据 中 第 一 列 的 
值 (是 个 数值 项 目 ) 是 否 在 我 们 要 搜索 的 数值 项 目 列表 中 ， 即 是 否 包含 在 列表 变量 item 
numbers to find 中 。 如 果 这 个 数值 项 目 是 我 们 要 搜索 的 数值 项 目 中 的 一 个 ， 那 么 我 们 就 在 
第 39 行 中 使 用 filewriter 的 writerow() 方法 ， 将 这 一 行 写 入 CSV 输出 文件 。 在 第 40 行 
代码 中 ， 我 们 还 要 将 count. of. item numbers 变量 的 值 增加 1， 来 跟踪 在 所 有 输入 文件 中 找 
到 的 数值 项 目的 数量 。 


最 后 ， 在 转 到 处 理 CSV 输入 文件 中 的 下 一 行 数 据 之 前 ， 在 第 41 行 代码 中 ， 要 将 line. 
counter 变量 的 值 增加 1， 来 跟踪 我 们 在 所 有 输入 文件 中 找到 的 数据 行 的 数量 。 

从 第 人行 开始 到 第 69 行 是 男 一 个 代码 块 ， 它 与 前 一 个 代码 块 非常 相似 ， 区 别 在 于 它 处 
理 的 是 Excel 文件 Cxls 和 .xlsx)， 不 是 CSV 文件 。 因 为 这 个 “Excel” 代 码 块 中 的 逻辑 与 
“CSV” 代 码 块 中 的 逻辑 是 一 样 的 ， 唯 一 区 别 是 处 理 Excel 文件 的 语法 和 CSV 文件 不 一 样 ， 
所 以 这 里 就 不 像 前 面 那样 详细 地 解释 每 行 代码 了 。 

第 42 行 是 一 个 eLif 语句 ， 开 始 了 一 个 处 理 扩展 名 为 .xls 或 .xlsx 的 Excel 文件 的 代码 块 。 
第 42 行使 用 一 个 “or” 条 件 来 检验 文件 扩展 名 是 否 为 .xls 或 .xlsx。 因 此 ， 第 43~69 行 代 
码 执 行 的 是 扩展 名 为 .xls 和 .xlsx 的 Excel 输入 文件 。 


第 43 行 代码 使 用 xlsx 模块 的 open_workbook() 方法 打开 一 个 Excel 工作 得， 并 将 其 中 的 内 


容 赋 给 变量 workbook, 


第 45 行 代码 创建 了 一 个 for 循环 ， 在 工作 短 的 所 有 工作 表 之 间 循 环 。 对 于 每 个 工作 表 ， 
第 46-49 行 代码 先 试图 将 工作 表 中 的 第 一 行 (也 就 是 标题 行 ) 读 入 变量 header。 如 果 出 现 
了 IndexError， 就 说 明 序 列 下 标 越界 ， 那 么 就 执行 Python 关键 字 pass， 实 际 上 就 是 什么 都 
不 做 ， 然 后 代码 继续 执行 第 50 行 操作 。 


第 50 行 代码 创建 了 一 个 for 循环 ， 在 Excel 输入 文件 的 其 余数 据 行 之 间 循 环 。 循 环 范围 不 
是 从 0 开始 ， 而 是 从 1 开始 ， 也 就 是 从 工作 表 中 的 第 二 行 开 始 (成 功 地 跳 过 了 标题 行 ) 。 
这 个 “Excel” 代 码 块 中 其 余 各 行 代码 与 “CSV” 代 码 块 中 的 代码 基本 相同 ， 除 了 使 用 
Excel 解析 语法 代替 了 CSV 解析 语法 。if 代码 块 处 理 单元 格 类 型 为 3 的 列 ， 也 就 是 包含 代 
表 日 期 的 数值 的 列 。 这 个 代码 块 使 用 xLrd 模块 的 xldate_as_tuple() 方法 和 datetime 模块 
的 date() 方法 来 保证 这 个 列 中 的 日 期 值 在 输出 文件 中 保持 原来 的 格式 。 只 要 这 个 值 被 转换 
为 具有 日 期 形式 的 文本 字符 串 ， 就 使 用 stripO 方法 剥离 字符 串 两 端的 空格 、 制 表 符 和 换 
行 符 ， 然 后 第 58 行 代 码 使 用 列表 的 append) 方法 将 这 个 值 追加 到 列表 row. of. output 中 。 
else 代码 块 处 理 所 有 其 他 列 中 的 值 。 对 于 每 个 值 ， 使 用 stripO 方法 剥离 字符 串 两 端的 空 
格 、 制 表 符 和 换行 符 ， 然 后 第 62 行 代 码 将 这 个 值 追加 到 列表 row of output 中 。 

第 63 行 代 码 将 输入 文件 的 基本 文件 名 追加 到 列表 row of output 中 。 与 CSV 文件 不 同 ， 
Excel 文件 中 可 以 包含 多 个 工作 表 。 因 此 ， 第 64 行 代码 还 将 工作 表 名 称 追 加 到 列表 中 。 这 
个 Excel 文件 的 附加 信息 可 以 更 加 请 楚 地 表示 出 脚本 在 哪里 找到 了 数值 项 目 。 
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第 65-69 行 代码 和 处 理 CSV 文件 的 代码 一 样 ， 第 65 行 检验 行 中 第 一 列 的 值 (数值 项 目 ) 


是 否 在 我 们 要 搜索 














的 数值 项 目 


列表 中 ， 即 是 否 包 含 在 列表 变量 item numbers to find 中 。 



































如 果 数 值 项 目 是 我 们 要 搜索 的 数值 项 目 中 的 一 个 ， 那 么 就 在 第 67 行 中 使 用 filewriter 的 
writerow() 方法 将 这 一 行 写 入 CSV 输出 文件 。 在 第 68 行 代码 中 ， 我 们 还 要 将 count_of_ 








item numbers 变量 的 值 增加 1， 来 跟 


最 后 ， 在 转 到 处 理 Excel 工作 表 中 









































踪 在 所 有 输入 文件 中 找到 的 数值 项 目的 数量 。 
的 下 一 行 数据 之 前 ， 在 第 69 行 代码 中 ， 要 将 lines 











counter 变量 的 值 增加 1， 来 跟踪 我 们 在 所 有 输入 文件 中 找到 的 数据 行 的 数量 。 
尺码 是 print 语句 。 当 脚本 处 理 完成 所 有 输入 文件 时 ， 这 些 print 语句 








第 70、71 和 72 行 


















































将 摘要 信息 打印 在 命令 行 窗口 或 终端 窗口 中 。 第 70 行 打印 出 脚本 处 理 的 文件 数 。 第 71 fT 
打印 出 在 所 有 输入 文件 和 工作 表 中 读 取 的 行 数 。 第 72 行 打印 出 带 有 我 们 要 搜索 的 数值 项 
目的 行 数 ， 这 个 数值 可 能 包含 重复 计数 。 例 如 ， 如 果 数 值 项 目 “1234” 在 一 个 文件 中 出 现 





























了 两 次 或 者 在 两 个 文件 中 分 别 出 现 一 次 ， 那 么 这 个 项 目 在 这 行 代码 打印 到 命令 行 窗口 或 终 
端 窗口 中 的 数值 中 就 被 计算 了 两 次 。 

















现在 我 们 已 经 完成 了 Python 脚本 ， 可 以 使 用 这 个 脚本 在 一 堆 历 史 文 件 中 搜索 特定 的 数据 
行 ， 并 将 输出 写 人 一 个 CSV 格式 的 输出 文件 了 。 要 完成 这 个 操作 ， 在 命令 行 中 输入 以 下 
命令 ， 然 后 按 回 车 键 : 























python 1search for items write found.py item numbers to find.csv file_archive\ 
output filesMLapp output.csv 
































在 Windows 系统 中 ， 你 可 以 看 到 输出 被 打印 到 命令 行 窗口 中 ， 如 图 5-6 所 示 。 

















5-6; 1search for items write found.py 的 运行 结果 ， 使 用 item_numbers_to_find.csv 文件 和 


file_archive 


文件 夹 中 的 文件 











从 命令 行 窗口 中 的 输出 你 可 以 看 到 ， 脚 本 处 理 了 3 个 输入 文件 ， 从 输入 文件 中 读 入 了 50 
行 数据 ， 并 找到 了 25 行 包含 我 们 需要 的 数值 项 目的 数据 。 这 个 输出 没有 表示 出 脚本 找到 
， 也 没有 表示 出 每 个 数值 项 目 被 找到 了 多 少 次 。 但 是 ， 这 就 是 我 们 要 将 
输出 写 在 CSV 输出 文件 中 的 原因 。 











了 多 少 个 数值 项 目 








要 查看 输出 文件 内 容 ， 需 要 打开 文 伯 



































F 1app_output.csyv。 内 容 如 图 5-7 所 示 。 
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1 [1234]Widgeti Supplier A 1100 6/2/2013 supplies.xis supplies 2013 
2 |2345 Widget 2 Supplier A 2300 6/17/2013 supplies.xls supplies 2013 
3 (4567 Widget 4 Supplier B 1300 7/4/2013 supplies.xls supplies 2013 
4 6789 Widget 6 Supplier C 1175 7/23/2013 supplies.xls. supplies 2013 
5 |7890 Widget 7 Supplier C 1200 7/27/2013 supplies.xls supplies 2013 
6 (1234 Widget 1 Supplier A 1100 6/2/2014 supplies.xls supplies 2014 
7 (2345 Widget 2 Supplier A 2300 6/17/2014 supplies.xls supplies 2014 
8 4567 Widget 4 Supplier B 1300 7/4/2014 supplies.xls supplies 2014 
9 (6789 Widget 6 Supplier C 1175 7/23/2014 supplies.xls supplies 2014 
10 7890 Widget 7 Supplier C 1200 7/27/2014 supplies.xls supplies 2014 
11/1234 Widget 1 SupplierA 1100 6/2/2013 supplies.xlsx supplies 2013 
12 2345 Widget 2 Supplier A 2300 6/17/2013 supplies.xlsx supplies 2013 
13 4567 Widget 4 SupplierB 1300 7/4/2013 supplies.xlsx supplies 2013 
14 6789 Widget 6 Supplier C 1175 7/23/2013 supplies.xlsx supplies 2013 
15 7890 Widget 7 Supplier C 1200 7/27/2013 supplles.xlsx supplies 2013 
16 1234 Widget 1 Supplier A 1100 6/2/2014 supplies.xlsx supplies 2014 
17 2345 Widget 2 Supplier A 2300 6/17/2014 supplies.xlsx supplies 2014 
18 4567 Widget 4 SupplierB 1300 7/4/2014 supplies.xlsx supplies 2014 
19 6789 Widget 6 Supplier C 1175 7/23/2014 supplies.xlsx supplies 2014 
20 7890 Widget 7 Supplier C 1200 7/27/2014 supplies.xlsx supplies 2014 


21/1234 Widget 1 Supplier A 1100 6/2/2012 supplies 2012.csv 
22 2345 Widget 2 Supplier A 2300 6/17/2012 supplies 2012.csv 
23 4567 Widget 4 Supplier B 1300 7/4/2012 supplies 2012.csv 
24 6789 Widget 6 Supplier C. 1175 7/23/2012 supplies 2012.csv 
25 7890 Widget 7 Supplier C 1200 7/27/2012 supplies 2012.csv 


Lowputfie EEO 














图 5-7; 1search for items write found.py 写 入 到 1app_output.csv 中 的 数据 


这 些 记录 来 自 于 3 个 输入 文件 中 的 行 数据 ， 其 中 的 数值 项 目 都 与 CSV 文件 中 的 数值 项 目 
相 匹 配 。 最 后 第 二 列 给 出 了 数据 所 在 的 文件 名 。 如 果 数 据 包含 在 这 两 个 Excel 工作 憩 中 ， 
最 后 一 列 就 给 出 了 数据 所 在 的 工作 表 名 称 。 


从 输出 文件 内 容 可 以 看 出 ， 我 们 找到 了 25 行 包含 我 们 需要 的 数值 项 目的 数据 。 这 个 输出 
文件 与 命令 行 窒 口中 打印 出 的 “25” 是 一 致 的 。 特 别 需要 广 意 的 是 ， 我 们 发 现 每 个 数值 项 
目 在 所 有 输入 文件 中 都 一 共 被 找到 了 5 次 。 例 如 ， 数 值 项 目 “1234” 在 .xls 文件 中 被 找到 
了 2 次 (一 次 在 supplies 2013 工作 表 中 ， 一 次 在 supplies_2014 工作 表 中 )， 在 .xlsx 文件 
中 被 找到 了 2 次 (一 次 在 supplies 2013 工作 表 中 ， 一 次 在 supplies 2014 TERP), Æ 
CSV 输入 文件 中 被 找到 了 1 次 。 


与 来 自 于 CSV 输入 文件 的 行 相 比 ， 来 自 于 Excel 工作 表 的 行 中 多 出 了 一 列 (就 是 找到 数据 
行 的 工作 表 名 称 )。 第 四 列 中 的 成 本 数据 只 包括 输入 文件 中 的 成 本 数值 部 分 。 最 后 ， 第 五 
列 中 的 日 期 数据 已 经 被 格式 化 了 ， 与 CSV 和 Excel 输入 文件 中 的 格式 保持 一 致 。 

这 个 应 用 程序 综合 运用 了 我 们 在 前 几 章 中 学 习 的 技术 ， 解 决 了 一 个 常见 的 实际 问题 。 商 业 
分 析 师 们 经 常会 遇 到 需要 将 分 布 在 多 个 不 同类 型 文件 中 的 历史 数据 组 合成 一 个 完整 数据 集 
这 样 的 问题 。 在 很 多 情况 下 ， 历 史 数据 文件 会 有 几 十 、 几 百 其 至 上 千 个 ， 从 这 些 文件 中 搜 
索 并 提取 出 特定 数据 想 想 就 令 人 望 而 生 长 。 

这 一 节 演 示 了 一 种 可 扩展 的 从 历史 记录 和 集合 中 提取 特定 记录 的 方法 。 为 了 使 这 个 示例 尽量 
简单 ， 这 里 仅仅 使 用 了 很 少 的 数值 项 目 和 3 个 历史 记录 文件 。 但 是 ， 这 种 方法 具有 很 好 的 
扩展 性 ， 你 可 以 在 更 多 的 数值 项 目 和 更 大 的 历史 文件 集合 中 使 用 这 种 方法 。 
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至 此 ， 我 们 已 经 解决 了 在 一 个 大 的 历史 文件 集合 中 搜索 特定 记录 的 问题 。 下 面 开 始 解决 为 
一 个 未 知 数目 的 分 类 计算 统计 量 的 问题 。 这 个 目标 此 刻 听 起 来 有 点 抽象 ， 我 将 在 下 一 节 对 
这 个 问题 进行 详细 讨论 ， 并 给 出 解决 方法 。 


5.2 ”为 CSV 文 件 中 数据 的 任意 数目 分 类 计算 统计 量 


在 很 多 商业 分 析 中 ， 需 要 为 一 个 特定 时 间 段 内 的 未 知 数目 的 分 类 计算 统计 量 。 举 例 来 说 ， 
假设 我 们 销售 5 种 不 同 种 类 的 产品 ， 你 想 计 算 一 下 在 某 一 年 中 对 于 所 有 客户 的 按 产 品种 类 
分 类 的 总 销售 额 。 因 为 客户 具有 不 同 的 品味 和 偏好 ， 他 们 在 一 年 中 购买 的 产品 也 是 不 同 
的 。 有 些 客户 购买 了 所 有 5 种 产品 ， 有 些 客户 则 只 购买 了 一 种 产品 。 在 这 种 客户 购买 习惯 
之 下 ， 与 每 个 客户 相关 的 产品 分 类 数目 都 是 不 同 的 。 

如 果 想 简单 处 理 的 话 ， 你 可 以 为 每 个 客户 都 分 配 全 部 5 种 产品 分 类 ， 将 所 有 产品 分 类 的 初 
始 总 销售 额 都 设 为 0， 然 后 只 将 每 个 客户 实际 购买 的 产品 计算 到 总 销售 额 中 。 但 是 ， 我 们 
已 经 知道 了 很 多 客户 只 购买 一 种 或 两 种 产品 ， 而 且 你 也 只 关心 客户 实际 购买 的 产品 的 总 销 
售 额 。 为 所 有 客户 计算 全 部 5 种 产品 分 类 的 销售 额 不 仅 没 有 必要 ， 还 是 一 种 干扰 ， 同 时 也 
是 对 内 存 、 计 算 能 力 和 存储 空间 的 浪费 。 基 于 以 上 原因 ， 我 们 应 该 只 处 理 必 要 的 数据 ， 为 
每 个 客户 计算 他 们 购买 的 产品 以 及 每 种 产品 分 类 的 总 销售 额 。 

再 举 个 例子 ， 假 如 客户 对 不 同 的 产品 或 服务 包 的 购买 力 会 随 着 时 间 的 推移 而 有 所 提高 。 例 
如 ， 你 向 客户 提供 了 铜牌 、 银 牌 和 金牌 3 种 类 型 的 服务 包 。 针 对 这 3 种 类 型 ， 有 些 客户 首选 
了 铜牌 服务 包 ， 有 些 客 户 首选 了 银牌 服务 包 ， 也 有 些 客 户 首选 了 金牌 服务 包 。 对 于 那些 首选 
铜牌 和 银牌 服务 包 的 客户 ， 随 着 时 间 的 推移 ， 他 们 可 能 会 购买 价值 更 高 的 产品 与 服务 包 。 


现在 ， 你 非常 想 计算 出 你 的 客户 在 他 们 购买 的 每 个 服务 包 类 别 上 花费 的 总 时 间 (以 月 计 
算 )。 例 如 ， 如 果 你 的 一 个 客户 Tony Shephard 在 2014 年 2 H 15 日 购买 了 铜牌 服务 包 ， 在 
2014 年 6 月 15 日 购买 了 银牌 服务 包 ， 在 2014 年 9 月 15 日 购买 了 金牌 服务 包 ， 那 么 关于 
Tony Shephard 的 计算 结果 就 是 :“ 铜 牌 服务 包 : 4 个 月 “银牌 服务 包 : 3 个 月 ”“ 人 金牌 服务 
包 : 从 2014 年 9 月 IS 日 至 今 ” 。 如 果 另 一 个 客户 Mollie Adler 只 购买 了 银牌 服务 包 和 金牌 
服务 包 ， 那 么 关于 Mollie Adler 的 计算 结果 中 就 不 会 包含 铜牌 服务 包 的 任何 信息 。 


如 果 你 的 客户 数据 集 非常 小 ， 那 么 你 可 以 打开 文件 ， 计 算出 日 期 之 间 的 差额 ， 然 后 按照 
服务 包 类 别 和 客户 名 称 将 它们 累加 起 来 。 但 是 ， 这 种 手工 处 理 方法 不 但 浪费 时 间 ， 还 容 
易 出 错 。 而 且 ， 当 文件 太 大 难以 打开 时 ， 就 不 好 办 了 。 这 就 是 使 用 Python 的 绝 好 机 会 。 
Python 可 以 处 理 因 体积 太 大 而 难以 打开 的 文件 ， 它 的 计算 速度 非常 快 ， 而 且 能 够 减少 人 为 
出 错 的 机 会 。 

为 了 在 一 个 客户 购买 服务 包 的 数据 集 上 执行 计算 ， 需 要 先 创建 一 个 CSV 数据 文件 。 

(D) 打开 Excel， 输 入 图 5-8 所 示 的 数据 。 

(2) 将 文件 保存 为 customer_category_history.csv。 



















































































































































































外 日 6- cie coomer catagory Hkory- Ecl *m-e5x 
HOME | SERT  PAGELNQUT FORMULAS DATA REVEW 














ied Good Neutral 
Sponotoy [AE unis 
m 

A B ie D E F G H J K L M N o & Q R sA 
1 [Customer Name — |category Price — Date 
2 John Smith "Bronze $20.00 1/22/2014 
3 John Smith Bronze $25.00 3/15/2014 
4 John Smith Silver — $30.00 4/2/2014 
5 John Smith Gold $40.00 5/11/2014 
6 John Smith Gold — $45.00 7/13/2014 
7 Mary Yu Silver — $30.00 2/3/2014 
8 Mary Yu Gold $40.00 4/16/2014 


9 Mary Yu Gold $45.00 6/23/2014 
10 Wayne Thompson Bronze $20.00 1/13/2014 
11 Wayne Thompson Bronze $25.00 3/24/2014 
12 Wayne Thompson Bronze $30.00 5/21/2014 
13 Wayne Thompson Silver — $30.00 6/29/2014 
14 BruceJohnson Bronze $20.00 2/9/2014 
15 BruceJohnson ^ Bronze $25.00 3/22/2014 
16 BruceJohnson ^ Silver — $30.00 4/27/2014 
17 |BruceJohnson Silver — $35.00 5/8/2014 
18 BruceJohnson Gold $40.00 6/26/2014 
19 BruceJohnson Gold $45.00 7/21/2014 


20 Annie Lee Bronze $20.00 3/16/2014 
21 Annie Lee Silver — $30.00 4/11/2014 
22 Annie Lee Gold $40.00 5/25/2014 
23 Annie Lee Gold — $4500 7/14/2014 
24 Annie Lee Gold $5000 7/21/2014 
25 Priya Patel Silver — $30.00 1/19/2014 
26 Priya Patel Silver — $35.00 2/28/2014 
27 Priya Patel Silver — $40.00 3/26/2014 
28 Priya Patel Gold $40.00 4/28/2014 
29 Priya Patel Gold $45.00 5/12/2014 
30 Priva Patel Gold $50.00 6/21/2014 
customer category history | ®© a 














S 5-8: customer_category_history.csv 中 的 示例 数据 ， 显 示 在 Excel 工作 表 中 


你 可 以 看 出 ， 这 个 数据 集 包 括 4 列 数据 : Customer Name, Category, Price 和 Date。 还 包 
jf 6 个 客户 : John Smith, Mary Yu, Wayne Thompson, Bruce Johnson, Annie Lee 和 Priya 
Patel。 同 时 包括 3 个 服务 包 分 类 : 铜牌 、 银 牌 和 金牌 。 数 据 是 以 先 按照 客户 姓名 ， 再 按照 


日 期 的 形式 升序 排列 的 。 























现在 我 们 已 经 有 了 数据 集 ， 其 中 包括 客户 在 过 去 一 年 中 购买 的 服务 包 ， 还 有 服务 包 的 购买 





日 期 或 更 新 日 期 。 接 下 来 要 做 的 就 是 编写 Python 代码 来 执行 计算 。 


要 完成 这 个 操作 ， 在 文本 编辑 器 中 输入 下 列 代 码 ， 然 后 将 文件 保存 为 2calculate_statistic_ 


by. category.py: 


1 #!/usr/bin/env python3 

2 import csv 

3 import sys 

4 from datetime import date, datetime 

5 

6 def date diff(datei, date2): 

7 try: 

8 diff = str(datetime.strptime(datei, '%m/%d/%Y') - \ 
9 datetime.strptime(date2, '%m/%d/%Y')).split()[0] 
10 except: 

11 diff = 0 

12 if diff == '0:00:00': 

13 diff - 0 

14 return diff 


15 input file - sys.argv[1] 
16 output file - sys.argv[2] 
17 packages = { ) 
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18 previous name = 'N/A' 

19 previous package = 'N/A' 

20 previous package date - 'N/A' 

21 first row - True 

22 today = date.today().strftime('%m/%d/%Y' ) 

23 with open(input file, 'r', newline='') as input csv file: 


24 filereader = csv.reader(input csv file) 

25 header - next(filereader) 

26 for row in filereader: 

27 current name - row[0] 

28 current package - row[1] 

29 current package date - row[3] 

30 if current name not in packages: 

31 packages[current name] = ( } 

32 if current package not in packages[current name]: 

33 packages[current name][current package] = 0 

34 if current name !- previous name: 

35 if first row: 

36 first row = False 

37 else: 

38 diff - date diff(today, previous package date) 

39 if previous package not in packages[previous name]: 

40 packages[previous name][previous package] = int(diff) 
41 else: 

42 packages[previous name][previous package] += int(diff) 
43 else: 

44 diff - date diff(current package date, previous package date) 
45 packages[previous name][previous package] += int(diff) 

46 previous name - current name 

47 previous package = current package 

48 previous, package date - current package date 


49 header - ['Customer Name', 'Category', 'Total Time (in Days)'] 
50 with open(output file, 'w', newline='') as output csv file: 


51 filewriter = csv.writer(output csv file) 

52 filewriter.writerow(header) 

53 for customer name, customer name value in packages.items(): 
54 for package category, package category value | 

55 in packages[customer name].items(): 

56 row of output = [ ] 

57 print(customer name, package category, package category value) 
58 row of output.append(customer name) 

59 row of output.append(package category) 

60 row of output.append(package category value) 

61 filewriter.writerow(row of output) 


脚本 中 的 代码 完成 了 计算 任务 ， 同 时 也 很 有 值得 学 习 的 意义 。 这 是 本 书 中 第 一 个 使 用 





Python 字典 数据 结构 来 组 织 和 保存 计算 结果 的 示例 。 实 际 上 ， 这 个 脚本 中 的 示例 比 普通 的 


字典 还 要 复杂 ， 


和 使 用 键 - 值 对 填充 字典 的 便捷 性 。 在 这 个 示例 中 ， 外 部 字典 的 名 称 为 packages。 外 部 字 











因为 它 是 一 个 和 能 套 的 字典 ， 也 就 是 字典 的 字典 。 这 个 示例 展示 了 创建 字 








典 的 键 为 客户 名 称 ， 与 这 个 键 相 对 的 值 是 另 一 个 字典 ， 其 中 的 键 为 服务 包 类 别 的 名 称 ， 
为 一 个 整数 ， 表 示 客 户 拥有 这 个 服务 包 的 天 数 。 字 典 是 一 种 方便 易 懂 的 数据 结构 ， 因 为 
多 数据 源 和 分 析 技术 都 支持 这 种 键 - 值 对 结构 。 你 可 以 回忆 一 下 ， 在 第 1 章 中 ， 字 和 典 是 
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tetas (H 创建 的 ， 字 典 中 的 键 是 唯一 的 字符 串 ， 键 - 值 对 中 的 键 和 值 由 冒号 分 隔 ， 每 
A St- (Ext Ziel ee Sots. Bile, costs={'people':3640, 'hardware':3975}, 


其 次 ， 这 个 脚本 还 演示 了 如 何 对 一 个 具体 类 别 中 的 第 一 行 数据 进行 特别 的 处 理 ， 这 种 处 理 
与 这 个 类 别 中 其 余 各 行 是 不 同 的 ， 因 为 我 们 要 在 两 行 之 差 的 基础 上 计算 统计 量 。 举 例 来 
说 ， 在 脚本 中 ， 在 外 层 话语 名 if current name != previous name 中 的 所 有 代码 仅 用 来 处 
理 一 个 新 客户 的 第 一 行 数据 ， 其 余 各 行 客户 数据 都 使 用 外 层 的 else 语句 进行 处 理 。 


最 后 ， 这 个 脚本 演示 了 如 何 定义 和 使 用 用 户 自 定 义 函数 。 这 个 脚本 中 的 函数 date diff 计 
算 并 返回 两 个 日 期 之 间 间 隔 的 天 数 。 这 个 函数 在 第 6-14 行 代码 中 定义 ， 在 第 38 和 44 行 
代码 中 被 调用 。 如 果 我 们 没有 定义 函数 ， 那 么 函数 中 的 代码 就 会 在 脚本 中 重复 输入 两 次 ， 
第 一 次 在 第 38 行 ， 第 二 次 在 第 44 行 。 通 过 定义 函数 ， 你 只 需要 将 这 些 代 码 输入 一 次 ， 这 
样 不 但 可 以 减少 脚本 中 的 代码 行 数 ， 还 可 以 简化 第 38 行 和 第 44 行 代码 。 正 如 第 1 章 中 提 
到 的 那样 ， 只 要 发 现在 脚本 中 有 重复 的 代码 ， 就 可 以 考虑 将 这 些 代 码 打 包 成 一 个 函数 ， 并 
使 用 这 个 函数 来 简化 和 缩短 脚本 中 的 代码 。 


我 们 已 经 介绍 了 脚本 中 需要 注意 的 几 个 方面 ， 下 面 来 逐 行 讨 论 代 码 。 第 2~5 行 代码 导入 读 
取 和 处 理 数 据 所 需 的 模块 和 方法 。 我 们 导入 了 csv, datetime, string 和 sys 模块 ， 来 分 
别 读 取 和 写 入 CSV 文件 、 处 理 日 期 变量 、 处 理 字 符 串 变量 和 在 命令 行 中 输入 参数 。 我 们 
从 datetime 模块 导入 date 和 datetime 方法 ,来 访问 当前 日 期 和 计算 日 期 之 间 的 间隔 。 

第 6~14 行 代码 定义 了 一 个 用 户 自 定义 函数 date_diff。 第 6 行 代码 包 含 了 函数 定义 语句 ， 
它 指定 了 函数 名 称 ， 并 说 明 这 个 函数 具有 两 个 参数 datei 和 date2。 第 7-11 行 代 码 包含 了 
一 个 try-except 异常 处 理 语 句 。try 代码 块 试 图 使 用 datetime.strptime() 函数 按照 日 期 字 
符 串 创建 datetime 对 象 ， 并 用 第 一 个 日 期 减 去 第 二 个 日 期 ， 使 用 str() 函数 将 相 减 的 结果 
转换 成 一 个 字符 串 ， 然 后 将 结果 字符 串 使 用 split() 函数 按照 空格 进行 分 割 ， 最 后 保留 字 
符 串 分 割 后 最 左边 的 部 分 (索引 值 为 [0] 的 字符 串 )， 并 将 其 赋 给 变量 dtiff。 如 果 try 代 
码 块 遇 到 异常 ， 则 执行 except 代码 块 。 如 果 被 执行 ，except 代码 块 就 将 diff 的 值 设 为 整 
数 0。 同 样 ， 第 12 和 13 行 代码 是 一 个 if 语句 ， 处 理 当 两 个 日 期 相等 ， 二 者 的 差 为 0 (被 
格式 化 为 '09:90:69') 的 情况 。 如 果 二 者 的 差 为 0 (请 注意 用 两 个 等 号 表示 相等 )， 那 么 if 
语句 就 将 diff 的 值 设 为 整数 0。 最 后 ， 在 第 14 行 代码 中 ， 函 数 返 回 包 含 在 变量 diff 中 的 
整数 值 。 

第 15 和 16 行 代码 读 入 我 们 在 命令 行 中 提供 的 两 个 参数 : CSV 输入 文件 的 路 径 名 和 CSV 
输出 文件 的 路 径 名 。CSV 输入 文件 中 包含 客户 数据 ，CSYV 输出 文件 中 包含 客户 相关 信 
息 ， 以 及 他 们 拥有 具体 服务 包 的 时 间 。 这 两 个 输入 参数 被 分 别 赋 给 两 个 变量 input file 和 
output file, 


第 17 行 代 码 创 建 了 一 个 空 字典 packages， 用 来 保存 我 们 需要 的 信息 。 第 18、19 和 20 行 
代码 创建 了 3 个 变量 : previous name, previous package 和 previous_package_date， 并 将 
一 个 字符 串 'NMA' 赋 给 了 每 个 变量 。 我 们 将 'NMA' 赋 给 这 些 变量 有 个 假设 前 提 ， 那 就 是 字 
符 串 “NMA' 不 会 出 现在 输入 文件 的 客户 姓名 、 服 务 包 类 别 或 服务 包 日 期 这 3 列 中 。 如 果 你 
想 根 据 自 己 的 分 析 来 修改 代码 ， 并 且 想 让 作为 字典 键 的 列 中 包括 字符 串 'N/A'， 那 么 就 应 
该 将 "MA' 修改 为 一 个 不 会 出 现在 输入 文件 各 列 中 的 字符 串 ， 比 如 “QQQQQ ' 或 其 他 有 特点 
的 又 没有 实际 意义 的 字符 串 。 
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第 21 行 代码 创建 了 一 个 布尔 变量 first_row， 并 赋值 为 True。 我们 使 用 这 个 变量 来 确定 是 
否 在 处 理 输 入 文件 中 的 第 一 行 数据 。 如 果 正 在 处 理 第 一 行 数据 ， 那 么 就 使 用 某 个 代码 块 来 
进行 处 理 。 如 果 正 在 处 理 的 不 是 第 一 行 数据 ， 那 么 就 使 用 另 一 个 代码 块 来 进行 处 理 。 


第 22 行 代码 创建 了 一 个 变量 today， 包 含 当 前 日 期 ， 形 式 为 %m/%d/%Y。 在 这 种 日 期 形式 
F, 2014 Æ 10 A 21 日 显示 为 10/21/2014。 


第 23 和 24 行 代码 使 用 with 语句 和 csv 模块 的 reader 方法 打开 CSV 输入 文件 ， 并 创建 一 
个 filereader 对 象 来 读 取 文 件 中 的 数据 。 第 25 行 代码 对 filereader 对 象 使 用 next 方法 ， 
从 输入 文件 中 读 出 第 一 行 数据 ， 并 将 其 赋 给 变量 header, 


第 26 行 代码 创建 了 一 个 for 循环 ， 在 输入 文件 的 其 余数 据 行 之 间 循 环 。 第 27 行 代码 取出 
第 一 列 的 值 row[9] ， 并 将 其 赋 给 变量 current_name。 第 28 行 代码 取出 第 二 列 的 值 row[1]， 
并 将 其 赋 给 变量 current_package。 第 29 行 代码 取出 第 四 列 的 值 row[3] ， 并 将 其 赋 给 变量 
current_package_date。 第 一 个 数据 行 中 包含 的 值 为 John Smith, Bronze FN 1/22/2014, 所 
以 这 些 值 被 分 别 赋 给 变量 current name, current package 和 current package date, 


第 30 行 代码 创建 了 一 个 if 语句， 用 来 检验 current, name 变量 中 的 值 是 否 还 不 是 字 — 典 
packages 中 的 一 个 键 。 如 果 不 是 ， 那 么 第 31 行 代码 将 current_name 中 的 值 作为 字典 键 加 
入 到 字典 packages 中 ， 并 将 与 这 个 键 对 应 的 值 设 为 一 个 空 字典 。 这 两 行 代码 使 用 键 - 值 对 
来 填充 字典 packages。 


同样 ， 第 32 行 代码 也 创建 了 一 个 if 语句 ， 用 来 检验 current, package 变量 中 的 值 是 否 还 
不 是 内 部 字典 中 的 一 个 键 ， 这 个 内 部 字典 是 packages 字典 的 一 个 值 ， 对 应 的 键 为 current_ 
name。 如 果 不 是 ， 就 使 用 第 33 行 代码 将 current_package 作为 字典 键 添加 到 内 部 字典 中 ， 
并 将 与 其 对 应 的 值 设 为 整数 0。 这 两 行 代码 使 用 键 - 值 对 来 填充 与 每 个 用 户 名 称 相关 的 内 
部 字典 


举例 来 说 ， 在 第 31 行 代码 中 ，John Smith 成 为 packages 字典 中 的 一 个 键 ， 与 之 对 应 的 值 
为 一 个 空 字典 。 在 第 33 行 代码 中 ， 第 一 个 与 John Smith 相关 的 服务 包 类 别 (就 是 铜牌 服 
务 包 Bronze) 成 为 内 部 字典 的 键 ， 与 Bronze 键 对 应 的 值 被 设 为 0。 这 时 ， 字 典 packages 
的 内 容 就 是 {'John Smith':{'Bronze':0}}, 

第 34 行 代码 创建 了 一 个 话语 句 ， 检 验 变 量 current name 中 的 值 是 否 不 等 于 变量 
previous name 中 的 值 。 当 第 一 次 执行 这 行 代码 时 ，current_name 中 的 值 为 输入 文件 中 第 一 
个 客户 名 称 (也 就 是 John Smith), previous name 中 的 值 为 'N/A'。 因 为 John Smith 不 等 
于 'N/A'， 所 以 我 们 进入 if 代码 块 。 

第 35 行 代码 创建 了 一 个 if 语句， 用 来 检验 代码 是 否 正在 处 理 输入 文件 的 第 一 行 数据 。 因 
Jy first row 变量 的 当前 值 为 True， 所 以 执行 第 36 行 代 码 ， 将 first row 的 值 设 为 False。 
然后 ， 代 码 来 到 第 46、47 和 48 行 ， 将 current_name、current_package 和 current_ 
package date 3 个 变量 的 值 分 别 赋 给 previous_name、previous_package 和 previous_ 
package date 3 个 变量 。 因 些 ，previous_name 现在 包含 的 值 为 John Smith, previous 
package 现在 包含 的 值 为 Bronze，previous_package_date 现在 包含 的 值 为 1/22/2014。 


至 此 ， 脚 本 已 经 结束 了 对 输入 文件 第 一 行 数据 的 处 理 ， 所 以 脚本 回 到 第 26 行 代码 ， 处 理 
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文件 中 的 下 一 行 数据 。 对 于 这 行 数据 ， 第 27、28 和 29 行 代码 分 别 将 行 中 第 一 、 第 二 和 第 
四 列 数 据 赋 给 变量 current name, current package 和 current_package_date。 因 为 第 二 行 
数据 包含 John Smith, Bronze 和 3/15/2014， 所 以 这 些 就 是 变量 current name, current _ 
package 和 current package date 中 的 值 。 


第 30 行 代码 再 次 检验 current. nane 中 的 值 是否 还 不 是 字典 packages 中 的 一 个 键 。 因 为 
John Smith 已 经 是 字典 中 的 键 ， 所 以 第 31 行 代码 不 被 执行 。 同 样 ， 第 32 行 代码 再 次 检验 
变量 current_package 中 的 值 是 否 还 不 是 内 部 字典 中 的 一 个 键 。Bronze 已 经 是 内 部 字典 中 
的 一 个 键 ， 所 以 第 33 行 代码 不 被 执行 。 


此 后 ， 第 34 行 代码 检验 current name 中 的 值 是 否 等 于 previous name 中 的 值 。current_ 
name 中 的 值 是 John Smith, previous name 中 的 值 也 是 John Smith。 因为 这 两 个 变量 中 的 
值 相 等 ， 所 以 第 35-42 行 代码 被 跳 过 ， 我 们 来 到 开始 于 第 43 行 代码 的 else 代码 块 。 


第 44 行 代码 调用 用 户 自 定义 函数 date_diff 来 计算 current package date 变量 值 减 去 
previous package date 变量 值 的 差 ， 并 将 这 个 差 (单位 为 天 ) 赋 给 变量 diff, REEI 
理 输入 文件 中 的 第 二 行 数据 ， 所 以 current package date 中 的 值 为 3/15/2014。 在 前 一 次 
循环 中 ， 我 们 将 值 1/22/2014 赋 给 了 变量 previous_package_date。 因 此 ， 变 量 diff 中 的 值 
就 是 3/15/2014 减 去 1/22/2014， 也 就 是 52 X. 


第 45 行 代码 将 某 个 用 户 拥 有 某 种 服务 包 的 时 间 加 上 变量 diff 的 值 。 例 如 ， 循 环 到 现在 ， 
previous name 的 值 为 John Smith, previous package 的 值 为 Bronze。 因 此 ， 我 们 将 John 
Smith 拥有 铜牌 服务 包 的 时 间 从 0 增加 到 52 天 。 这 时 候 ，packages 字典 中 的 内 容 就 是 : 
('John Smith':{'Bronze':52}}， 请 注意 其 中 的 数值 从 0 增加 到 了 52, 


最 后 ， 第 46、47 和 48 行 代码 将 current name, current package 和 current package date 
3 个 变量 的 值 分 别 厂 给 previous name, previous package 和 previous_package_date 3 个 


变量 


为 了 确保 你 可 以 理解 代码 的 工作 方式 ， 这 里 再 讨论 一 次 循环 进 代 。 在 前 面 一 段 中 ， 我 们 
知道 3 个 current * 变量 被 赋 给 了 3 个 previous * 变量 。 所 以 previous name, previous 
package 和 previous package date 中 的 值 分 别 为 John Smith, Bronze 和 3/15/2014, 在 
循环 的 下 一 次 迭代 中 ， 第 27、28 和 29 行 代码 将 输入 文件 第 三 行 数据 中 的 值 赋 给 3 个 
current * 变量 。 在 这 次 赋值 之 后 ，current_name、current_package 和 current_package_ 
date 3 个 变量 中 的 值 分 别 为 John Smith, Silver 和 4/2/2014, 


第 30 行 代码 再 次 检验 current name 中 的 值 是 否 还 不 是 字典 packages 中 的 一 个 键 。 因 为 
John Smith 已 经 是 字典 中 的 键 ， 所 以 第 31 行 代码 不 被 执行 。 

第 32 行 代码 检验 变量 current_package 中 的 值 是 否 还 不 是 内 部 字典 中 的 一 个 键 。 这 一 次 ， 
current package 中 的 值 Silver 是 一 个 新 值 ， 还 不 是 内 部 字典 中 的 一 个 键 ， 所 以 第 33 fT 
代码 将 Silver 作为 内 部 字典 的 一 个 键 ， 并 将 与 Silver 键 对 应 的 值 初始 化 为 0。 这 个 时 使， 
packages 字典 中 的 内 容 为 {'John Smith':{'Silver':0, 'Bronze':52}}, 

此 后 ， 第 34 行 代码 检验 current, name 中 的 值 是 否 等 于 previous name 中 的 值 。current_name 
中 的 值 是 John Smith, previous name 中 的 值 也 是 John Smith。 因为 这 两 个 变量 中 的 值 相 
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等 ， 所 以 第 35-42 行 代码 被 跳 过 ， 我 们 来 到 开始 于 第 43 行 代码 的 else 代码 块 。 


第 44 行 代码 调用 用 户 自 定义 函数 date_diff 来 计算 current package date 变量 值 减 去 
previous package date 变量 值 的 差 ， 并 将 这 个 差 (单位 为 天 ) 赋 给 变量 dtff。 因 为 我 们 正 
在 处 理 输入 文件 中 的 第 三 行 数据 ， 所 以 current package date 中 的 值 为 4/2/2014。 在 前 一 
次 循环 中 ， 我 们 将 值 3/15/2014 赋 给 了 变量 previous_package_date。 因 此 ， 变 量 diff 中 的 
值 就 是 4/2/2014 减 去 3/115/2014， 也 就 是 18 X. 


第 45 行 代码 将 某 个 用 户 拥 有 某 种 服务 包 的 时 间 加 上 变量 diff 的 值 。 例 如 ， 循 环 到 现在 ， 
previous name 的 值 为 John Smith, previous package 的 值 为 Bronze。 因 此 ， 我 们 将 John 
Smith 拥有 铜牌 服务 包 的 时 间 从 52 天 增加 到 70 天 。 这 时 候 ，packages 字典 中 的 内 容 就 是 : 
{'John Smith':{'Silver':0, 'Bronze':70}}, 






































同样 ， 第 46、47 和 48 行 代码 将 current_name、current_package 和 current_package_date 
3 个 变量 的 值 分 别 赋 给 previous_name、previous_package 和 previous_package_date 3 个 变 





三 


里 。 


当 for 循环 处 理 完 输入 文件 中 所 有 行 的 时 候 ， 第 49-61 行 代码 将 标题 行 和 骨 套 字典 中 的 
内 容 写 入 输出 文件 。 第 49 行 代码 创建 了 一 个 列表 变量 header， 其 中 包含 3 个 字符 串 : 
Customer Name, Category 和 Total Time (in Days), X 3 个 字符 串 将 作为 输出 文件 中 3 个 
列 的 标题 


第 50 和 51 行 代码 分 别 打开 一 个 输出 文件 供 脚 本 写 入 数据 和 创建 一 个 写 人 对 象 来 写 入 输出 
文件 。 第 52 行 代码 将 header 中 的 内 容 〈 也 就 是 标题 行 ) 写 人 输出 文件 。 

第 53 和 54 行 代码 是 两 个 for 循环 ， 分 别 在 外 部 字典 和 内 部 字典 的 键 和 值 之 间 循 环 。 外 部 
字典 的 键 是 客户 名 称 ， 与 每 个 客户 名 称 对 应 的 值 是 另 一 个 字典 。 内 部 字典 的 键 是 客户 购买 
的 服务 包 类 别 ， 内 部 字典 的 值 是 用 户 拥有 的 每 个 服务 包 的 总 时 间 (以 天 计 )。 


第 56 行 代码 创建 了 一 个 空 列表 row_of_output， 用 来 保存 要 写 入 输出 文件 的 3 个 值 。 第 57 
行 代码 将 要 输出 的 这 3 个 值 打 印 出 来 ， 这 样 我 们 就 可 以 看 到 要 写 入 输出 文件 中 的 内 容 了 。 
SAREE eh 可 以 将 这 行 代码 删除 。 第 58~60 行 代码 将 要 输出 的 3 个 值 追加 
到 列表 row of output 中 。 最 后 ， 对 于 骨 套 字典 中 的 每 一 个 客户 名 称 和 与 之 对 应 的 服务 包 
类 别 ， 第 61 行 代 码 将 我 们 需要 的 3 个 值 以 逗号 分 隔 的 形式 写 入 输出 文件 。 
我 们 已 经 完成 了 Python 脚本 ， 现 在 可 以 使 用 这 个 脚本 计算 每 个 顾客 拥有 不 同 服务 类 别 的 总 
时 间 ， 并 将 结果 写 入 CSV 输出 文件 了 。 要 完成 这 个 操作 ， 在 命令 行 中 输入 以 下 命令 ， 然 
后 按 回 车 键 : 


python 2calculate statistic by category.py customer category history.csvY 
output filesM2app output.csv 


你 可 以 看 到 如 图 5-9 所 示 的 输出 被 打印 在 命令 行 窗口 或 终端 窗口 中 (每 人 的 实际 数字 会 有 
不 同 ， 因 为 在 脚本 中 使 用 的 是 当前 日 期 )。 











































































































a Command Prompt 
oft Wind 
(c) 


Clinton>cd Desktop 


[version 6.1.7601 


icrosoft Corporation. 


All rights reserved. 


hon 2calculate statistic by category.py customer category history.csv output filesM2app output 


Johnson 


Lee Gold 
Lee Silv 


John smith Bronze 70 


Ic: \Users\Clinton\Desktop> 














图 5-9: 在 CSV X customer_category_history.csv [73517 2calculate_statistic_by_category.py 的 结果 





MAIT H P B d 


H5 55 fr 2app_output.csv H 





PF 的 输出 是 一 样 的 ， 这 个 文人 











5-10 所 示 ， 它 展示 了 每 个 客 


户 拥 有 一 个 特定 服务 包 的 总 天 数 。 


F 中 的 内 容 如 图 











Kas- " 2app. output = Microsoft Excel non-commercial use [o|e| x 
Home | Insert  Pagelayout Formulas Data Review iew Add-Ins e@ca 8 
EL * cui z JE Z [General al EE (E CU A 
emis = z^ ini ; hk -———— 3 Delete - n A 
Be RIER SARERA E- Ra INL Be PERS hs Peed E aree EEEE Kan CIN ERE Rin 
ipboard ra ont Alignment Number Styles Cells Editing 
A1 X fe Customer Name N 
A B c D E F G E 
1 Customer Name Category Total Time (in Days) 
2 Wayne Thompson Silver 469 
3 Wayne Thompson Bronze 167 
a Bruce Johnson Gold 472 
s Bruce Johnson Silver 60 
s Bruce Johnson Bronze 77 
; Annie Lee Gold 504 
s Annie Lee Silver 44 
ə Annie Lee Bronze 26 
10 Priya Patel Silver 99 
u Priya Patel Gold 54 
12 Mary Yu Silver 72 
a3 Mary Yu Gold 543 
14 John Smith Gold 518 
1s John Smith Silver 39 
as John Smith Bronze 70 i 
[4 ¥ ^| 2app_output AD «d i nulle 
| Ready | | BB BB 100% (— [) 




















图 5-10; 保存 在 CSV 文件 2app_output.csv 中 的 脚本 2calculate statistic by. category.py 的 输出 
(每 个 客户 拥有 一 个 特定 服务 包 的 总 天 数 ) ， 显 示 在 Excel 工作 表 中 
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你 可 以 看 到 ， 脚 本 先 将 标题 行 写 入 输出 文件 ， 然 后 写 入 了 来 自 于 输入 文件 的 经 过 处 理 的 信 
息 ， 每 行 信息 都 以 客户 名 称 和 服务 包 类 别 作 为 关键 字 。 例 如 ， 标 题 行 下 面 的 前 两 个 数据 行 
说 明了 Wayne Thompson 拥有 铜牌 服务 包 167 天 ， 银 牌 服务 包 469 天 。 最 后 三 行 数 据说 明 
了 John Smith 拥有 铜牌 服务 包 70 天 ， 银 牌 服务 包 39 R, 金牌 服务 包 518 天 。 其 余 各 行 数 
据 显 示 了 其 他 客户 的 计算 结果 。 对 输入 文件 中 的 原始 数据 进行 了 处 理 和 累加 之 后 ， 你 可 以 
使 用 这 些 数据 计算 其 他 统计 量 ， 或 者 以 各 种 方式 进行 摘要 统计 和 数据 可 视 化 ， 或 者 将 这 些 
数据 与 其 他 数据 结合 起 来 进行 更 深入 的 分 析 。 

还 需要 注意 的 一 点 是 ， 对 于 如 何 处 理 每 个 客户 的 最 后 一 种 服务 包 类 别 ， 我 们 需要 做 出 实际 
决策 〈 或 者 说 假设 )。 如 果 我 们 的 输入 数据 是 准确 的 而 且 是 最 新 的 ， 那 么 客户 很 可 能 还 继 
续 拥 有 上 面 的 最 后 一 个 服务 包 。 例 如 ，Wayne Thompson 的 最 后 一 个 服务 包 类 别 是 银牌 服 
务 包 ， 购 买 于 2014 年 6 月 29 日 。 因 为 Wayne Thompson 很 可 能 仍然 拥有 这 种 服务 包 ， 所 
以 这 个 服务 包 的 总 时 间 应 该 是 从 2014 年 6 H 29 日 到 今天 为 止 的 总 时 间 ， 这 说 明 每 个 客户 
拥有 最 后 一 个 服务 包 的 总 时 间 取 决 于 脚本 在 何 时 运行 。 

实现 这 个 计算 和 累加 的 代码 位 于 第 34 行 下 面 的 缩 进 部 分 。 第 35 行 代 码 保证 在 处 理 第 一 行 
数据 时 不 进行 减法 计算 ， 因 为 我 们 不 能 使 用 一 个 日 期 做 减法 。 在 处 理 完 第 一 行 数据 之 后 ， 
第 36 行 代码 将 first row 设 为 False。 这 样 ， 对 于 所 有 其 余 的 数据 行 ， 第 35 行 代码 都 是 
False, $ 36 行 代码 不 会 被 执行 。 对 于 每 次 从 一 个 客户 转换 到 另 一 个 客户 ， 第 38~42 行 代 
码 都 要 执行 。 第 38 行 代码 计算 当前 日 期 与 previous_package_date 之 间 的 差 值 (以 天 计 )， 
并 将 其 赋 给 变量 diff。 然 后 ， 如 果 previous package 中 的 值 还 不 是 内 部 字典 的 键 ， 第 40 
行 代 码 就 将 其 作为 内 部 字典 的 一 个 键 ， 并 将 与 之 对 应 的 值 设 为 变量 diff 中 的 值 。 否 则 ， 如 
Ax previous package 中 的 值 已 经 是 内 部 字典 的 键 ， 那么 第 42 行 代码 就 将 diff 中 的 值 加 在 
内 部 字典 中 与 该 键 对 应 的 字典 值 上 面 。 


让 我 们 回 到 Wayne Thompson 的 例子 ，Wayne Thompson 的 最 后 一 个 服务 包 类 别 是 银牌 服 
务 包 ， 购 买 日 期 为 2014 年 6 月 29 日 。 下 一 行 输入 数据 是 另 一 个 客户 Bruce Johnson， 所 以 
第 34 行 下 面 的 代码 被 执行 。 代 码 执行 的 时 间 就 是 我 写 这 一 章 的 时 间 ， 即 2015 年 10 H 11 
日 ， 所 以 diff 中 的 值 就 是 10/11/2015 减 去 6/29/2014 的 差 ， 也 就 是 469 天 。 在 命令 行 窗口 
和 输出 文件 中 你 都 可 以 看 到 ，Wayne Thompson 拥有 银牌 服务 包 的 总 时 间 是 469 天 。 

如 果 你 在 另 一 个 时 间 运 行 了 这 个 脚本 ， 那 么 这 行 输出 的 总 时 间 就 会 发 生变 化 (应 该 是 个 更 
大 的 数字 )， 同 样 ， 每 个 用 户 拥有 最 后 服务 包 的 时 间 也 会 发 生变 化 。 如 何 处 理 每 个 用 户 的 
最 后 一 行 数据 要 根据 实际 情况 作出 决策 。 你 完全 可 以 修改 这 个 示例 中 的 代码 ， 以 此 来 满足 
实际 情况 中 的 数据 处 理 需 求 。 


这 个 应 用 程序 综合 运用 我 们 在 第 1 章 中 学 习 的 儿 种 技术 (例如 创建 用 户 自 定义 函数 和 填充 
字典 ) 来 解决 一 个 常见 的 实际 问题 。 商 业 分 析 师 们 会 经 常 遇 到 这 种 需要 计算 输入 数据 中 两 
行 之 间 差 值 的 问题 。 在 很 多 情况 下 ， 需 要 以 不 同方 式 处 理 成 千 上 万 条 数据 ， 手 动 计 算 某 些 
数据 之 间 差 值 的 想法 简直 是 疯 了 (即使 能 够 完成 任务 )。 
这 一 市 演示 了 一 种 可 扩展 的 计算 方法 ， 可 以 用 来 计算 行 间 的 差 值 ， 并 将 这 些 差 值 按 照 输 入 
文件 中 其 他 列 中 的 值 票 加 起 来 。 为 了 使 这 个 示例 尽量 简单 ， 我 们 仅仅 使 用 了 少量 客户 记 
录 。 但 是 ， 这 种 方法 具有 很 好 的 扩展 性 ， 你 可 以 在 大 量 记 录 中 使 用 这 种 方法 执行 计算 ， 也 
可 以 修改 一 下 代码 ， 来 处 理 多 个 输入 文件 中 的 数据 。 
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至 此 ， 我 们 已 经 解决 了 为 未 知 数目 的 类 别 计算 统计 量 的 问题 。 下 面 开始 解决 通过 分 析 纯 文 
本 文件 找 出 关键 数据 的 问题 。 这 个 目标 此 刻 听 起 来 有 点 抽象 ， 我 们 将 在 下 一 方 对 这 个 问题 
进行 详细 讨论 ， 并 给 出 解决 方法 。 


5.3 ”为 文本 文件 中 数据 的 任意 数目 分 类 计算 统计 量 
前 面 两 个 应 用 程序 演示 了 如 何 通 过 CSV 文件 和 Excel 文件 中 的 数据 完成 具体 的 任务 。 确 
实 ， 本 书 的 大 部 分 内 容 都 重点 介绍 如 何 分 析 和 处 理 这 些 文件 中 的 数据 。 对 于 CSV XT, 
我 们 使 用 Python 内 置 的 csv 模块 。 对 于 Excel 文件 ， 我 们 下 载 并 使 用 扩展 模块 xlrd, CSV 
文件 和 Excel 文件 是 商业 中 常用 的 文件 类 型 ， 所 以 知道 如 何 处 理 这 些 文件 是 非常 重要 的 。 
同样 ， 文 本 文件 〈 也 称 平 面 文件 ) 也 是 商业 中 常用 的 文件 类 型 。 前 面 已 经 说 过 ，CSYV 文件 
实际 上 就 是 以 和 逗号 分 隔 的 文本 文件 形式 保存 的 。 活 动 日 志 、 错 误 日 志和 交易 记录 是 商业 数 
据 保 存在 文本 文件 中 的 几 个 更 常见 的 例子 。 因 为 文本 文件 和 CSV. 文件 、Excel 文件 一 样 ， 
也 经 常 应 用 于 商业 过 程 ， 但 直到 现在 本 书 还 没有 详细 介绍 如 何 分 析 文 本 文件 ， 所 以 我 们 使 
用 下 面 这 个 应 用 程序 演示 如 何 从 文本 文件 中 提取 数据 并 根据 这 些 数据 计算 统计 量 。 

正如 前 面 一 段 提 到 的 ， 错 误 日 志 通 常 是 以 文本 文件 形式 存储 的 。MySQL 数据 库 系 统 中 的 
错误 日 志 就 是 以 这 种 形式 保存 的 。 在 上 一 章 中 ， 我 们 下 载 并 安装 了 MySQL 数据 库 系 统 ， 
所 以 如 果 你 在 上 一 章 中 实现 了 示例 程序 ， 那 么 就 可 以 访问 MySQL 错误 日 志 了 。 但 请 记 住 ， 
你 可 以 根据 自己 的 需要 定位 并 访问 MySQL 系统 的 错误 日 志 ， 完 成 本 市 中 的 示例 并 不 要 求 
你 必须 访问 MySQL 错误 日 志 。 


要 在 Windows 系统 中 访问 MySQL 系统 的 错误 日 志文 件 ， 先 打开 资源 管理 器 ， 选 择 C ORA 
盘 驱 动 器 ， 然 后 打开 ProgramData， 接 着 打开 MySQL 文件 夹 ， 再 打开 MySQL Server 
«Version» 文件 夹 (例如 ，MySQL Server 5.6)， 最 后 打开 data 文件 夹 。 在 data 文件 夹 中 ， 
应 该 有 一 个 以 扩展 名 .err 结尾 的 错误 日 志文 件 。 使 用 鼠标 右 击 这 个 文件 ， 用 像 Notepad 或 
Notepad++ 这 样 的 文本 编辑 器 打开 这 个 文件 ， 就 可 以 看 到 MySQL 系统 的 错误 记录 已 经 被 
写 到 这 个 日 志文 件 中 了 。 如 果 在 这 个 路 径 下 找 不 到 文件 夹 ， 可 以 打开 资源 管理 器 ， 选 择 C 
磁盘 驱动 器 ， 在 右上 和 角 的 搜索 框 中 输入 “.err”， 然 后 等 待 系统 找到 错误 日 志文 件 。 如 果 系 
统 找到 了 多 个 错误 日 志文 件 ， 那 么 就 选择 与 上 面 描述 的 路 径 最 接近 的 那 一 个 。 


























































































































macos 用 户 应 该 可 以 在 这 里 找到 错误 日 志文 件 /usr/local/mysql/data/ 


<hostname>.err。 





因为 你 的 MySQL 错误 日 志文 件 中 的 数据 肯定 与 我 的 MySQL 错误 日 志文 件 中 的 数据 不 一 
样 ， 所 以 在 这 个 应 用 程序 中 ， 我 们 使 用 一 个 独立 的 、 有 代表 性 的 MySQL 错误 日 志文 件 。 
这 样 就 可 以 把 重点 放 在 Python 代码 上 ， 而 不 是 处 理 各 种 错误 日 志文 件 的 不 同 之 处 。 要 为 这 
个 应 用 程序 创建 一 个 典型 的 MySQL 错误 日 志文 件 ， 先 打开 一 个 文本 编辑 器 ， 输 入 图 5-11 
所 示 的 各 行文 本 ， 然 后 将 文件 保存 为 mysql. server. error. log.txt。 
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u  CAUsersilintonkDesiaopymysal server error. jog bt - Notepads = -oy 

View Encoding Language Senings Mecro fun Plugs Window t x 
ad »G8|£4mpiaecitauw tsi asi 

eyed sever eer om 6] 

1 246824 10:40:55 mysqld safe Starting mysqld daemon with databases from /usr/local/mysgl/data 

2 2014-02-03 10:40:55 98765 [Note] InnoDB: Compressed tables use zlib 1.2.3 

3 2014-02-03 10:40:55 98765 [Note] InnoDB: Using atomics to ref count buffer pool pages 

4 2014-02-03 10:40:55 98765 [Note] InnoDB: 5.6.16 started; log sequence number 1234567 

5 2014-02-03 10:47:18 64208 [Note] InnoDB: Using atomics to ref count buffer pool pages 

6 

7 








2014-02-03 10:47:18 64208 [Note] InnoDB: Compressed Lables use zlib 1.2.3 
2014-02-03 10:55:55 64208 [Note] /usr/local/mysgl/bin/mysqld: Shutdown complete 


9 135791 15:59:29 mysqld safe Starting mysqld daemon with databases from /usr/local/mysgl/data 
10 2014-03-07 10:40:55 98765 [Note] InnoDB: Compressed tables use zlib 1.2.3 

11 2014-03-07 10:40:55 98765 [Note] InnoDB: Compressed tables use zlib 1.2.3 

12 2014-03-07 10:40:55 98765 [Note] InnoDB: 5.6.16 started; log sequence number 1234567 

13 2014-03-07 10:47:18 64208 [Nole] InnoDB: Using aLomics Lo ref count buffer pool pages 

14 2014-03-07 10:47:18 64208 [Note] InnoDB: Compressed tables use zlib 1.2.3 

15 2014-03-07 10:55:55 64208 [Note] /usr/local/mysgl/bin/mysgld: Shutdown complete 


17 124578 15:59:29 mysqld safe Starting mysqld daemon with databases from /ysx/local/mysql/data 
18 2014-10-27 10:40:55 98765 [Note] InnoDB: Completed initialization of buffer pool 

19 2014-10-27 10:40:55 98765 [Note] InnoDB: IPv6 is available. 

20 2014-10-27 10:40:55 98765 [Note] InnoDB: 5.6.16 started; log sequence number 1234567 

21 2014-10-27 10:47:18 64208 [Note] InnoDB: Completed initialization of buffer pool 

22 2014-10-27 10:47:10 64200 [Note] InnoDB: IPv6 is available. 

23 2014-10-27 10:55:55 64208 [Note] /usr/local/mysgl/bin/mysgld: Shutdown complete 
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5-11: mysql_server_error_log.txt 中 的 MySQL 数据 库 错 误 日 志 数 据 示 例 ， 显 示 在 Notepad++ 中 


你 可 以 看 到 ， 在 MySQL 错误 日 志文 件 中 ， 记 录 着 mysqld 启动 与 结束 的 时 间 ， 以 及 在 服务 
器 运行 时 发 生 的 各 种 关键 错误 的 信息 。 例 如 ， 文件 的 第 p 行 就 显示 了 启动 的 时 间 ， 第 7 fT 
则 显示 了 这 一 天 中 mysqld 结束 的 时 间 。 第 2~6 行 显示 了 这 一 天 中 当 服 务 器 运行 时 发 生 的 
关键 错误 。 这 些 行 的 开头 都 是 一 个 日 期 和 时 间 戳 ， 后 面 是 由 关键 词 [Note] 引导 的 关键 的 错 
误 消息 。 文 件 中 其 余 各 行 包含 着 同样 的 信息 ， 只 是 日 期 不 同 。 


为 了 减少 创建 文件 时 的 输入 量 ， 我 重复 了 时 间 惟 和 很 多 关键 错误 消息 。 因 此 ， 创 建文 件 时 
你 只 需 输入 1~7 行 ， 然 后 将 这 些 行 复制 粘贴 两 次 ， 修 改 一 下 日 期 和 错误 消息 即 可 。 


既然 我 们 有 了 MySQL 错误 日 志文 件 ， 那 么 下 面 就 讨论 一 下 商业 应 用 。 这 种 情况 下 的 文本 
文件 经 常 保存 着 一 些 分 散 的 数据 ， 可 以 进行 分 析 、 聚 集 和 解释 ， 以 产生 一 些 新 的 知识 。 辫 
例 来 说 ， 在 我 们 这 个 应 用 中 ， 错 误 日 志文 件 记录 着 错误 的 类 型 和 发 生 时 间 。 在 它 的 原始 状 
态 下 ， 我 们 很 难看 出 是 否 有 某 种 错误 发 生 的 比 其 他 错误 更 频繁 ， 或 者 是 否 某 种 错误 的 频率 
会 随 着 时 间 发 生变 化 。 通 过 解析 这 个 文本 文件 ， 将 相关 信息 聚集 起 来 ， 然 后 以 合适 的 形式 
写 人 一 个 输出 文件 ， 就 可 以 从 数据 中 获得 知识 ， 促 使 我 们 采取 正确 的 行动 。 你 使 用 的 文本 
文件 可 能 不 是 MySQL 错误 日 志 ， 但 是 ， 能 够 分 析 文 本 文件 ， 找 出 关键 数据 ， 并 将 数据 聚 
集 起 来 以 产生 新 知识 ， 是 处 理 文本 文件 的 一 项 常用 的 重要 技能 。 

既然 我 们 已 经 理解 了 商业 应 用 的 需求 ， 下 面 需要 做 的 就 是 编写 Python 代码 来 进行 错误 消 
息 的 分 析 和 计算 。 要 完成 这 个 操作 ， 在 文本 编辑 器 中 输入 下 列 代码 ， 然 后 将 文件 保存 为 
3parse_text_file.py: 






























































1 #!/usr/bin/env python3 
2 import sys 
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3 
4 input file = sys.argv[1] 

5 output file - sys.argv[2] 

6 messages = { } 

7 notes = [ ] 

8 with open(input_file, 'r', newline='') as text_file: 


9 for row in text_file: 

10 if '[Note]' in row: 

11 row list = row.split(' ', 4) 
12 day = row list[0].strip() 

13 note = row_list[4].strip('\n').strip() 
14 if note not in notes: 

15 notes. append(note) 

16 if day not in messages: 

17 messages[day] = { } 

18 if note not in messages[day]: 
19 messages[day][note] = 1 
20 else: 

21 messages[day][note] += 1 


22 filewriter = open(output file, 'w', newline='') 
23 header - ['Date'] 

24 header.extend(notes) 

25 header = ','.join(map(str,header)) + '\n' 

26 print(header) 

27 filewriter.write(header) 

28 for day, day value in messages.items(): 


29 row of output = [ ] 

30 row of output.append(day) 

31 for index in range(len(notes)): 

32 if notes[index] in day. value.keys(): 

33 row of output.append(day value[notes[index]]) 
34 else: 

35 row of output.append(0) 

36 output = ','.join(map(str,row of output)) + '\n' 

37 print(output) 

38 filewriter.write(output) 


39 filewriter.close() 


在 这 个 应 用 中 ， 与 CSV 文件 和 Excel 文件 不 同 ， 因 为 我 们 分 析 的 文本 文件 只 包含 纯 文本 ， 
所 以 不 需要 导入 csv 或 xlLrd 模块 ， 只 需要 在 第 2 和 3 行 代码 中 导入 Python 内 置 的 sys 和 
string 模块 即 可 。 前 面 已 经 介绍 过 ， 这 两 个 模块 分 别 可 以 使 我 们 处 理 字符 串 和 从 命令 行 中 
读 取 输 入 参数 。 

第 4 和 5 行 代码 读 取 我 们 在 命令 行 中 提供 的 两 个 输入 参数 : 包含 MySQL. 错误 日 志 的 文本 
文件 的 路 径 名 和 CSV 输出 文件 的 路 径 名 ，CSYV 输出 文件 中 将 保存 每 天 发 生 的 各 种 错误 类 
型 的 信息 。 这 两 个 输入 参数 被 分 别 赋 给 两 个 变量 : input file 和 output. file, 


第 6 行 代码 创建 了 一 个 空 字 典 messages。 和 前 一 个 应 用 程序 中 的 字典 一 样 ，messages 也 是 
一 个 能 套 字 典 。 外 部 字典 的 键 是 错误 发 生 的 具体 日 期 ， 与 之 对 应 的 值 是 另 一 个 字典 。 内 部 
字典 的 键 是 错误 销 息 ， 与 之 对 应 的 值 是 某 一 天 错误 发 生 的 次 数 。 


第 7 行 代码 创建 了 一 个 空 列 表 notes。 列 表 notes 将 保存 输入 的 错误 日 志文 件 中 所 有 日 期 
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发 生 的 全 部 错误 消息 。 将 所 有 错误 消息 放 在 一 个 独立 的 数据 结构 中 (也 就 是 说 放 在 一 个 列 
表 中 ， 而 不 是 放 在 前 面 的 字典 中 )， 可 以 更 容易 地 在 错误 日 志文 件 中 搜索 错误 消息 ， 将 错 
误 消 息 作为 标题 行 写 人 输出 文件 ， 并 在 字典 和 列表 中 分 别 进行 选 代 ， 以 将 日 期 和 数据 计数 
写 在 输出 文件 中 。 


第 8 行 代 码 使 用 Python 的 with 语法 打开 输入 文件 以 供 读 取 。 第 9 行 代 码 创 建 了 一 个 for 
循环 ， 在 输入 文件 的 各 行 之 间 循 环 。 


第 10 行 代码 是 一 个 if 语句 ， 检 验 字 符 串 [Note] 是 否 在 这 一 行 中 。 包 含 字 符 串 [Note] 的 
行 就 是 包含 错误 消息 的 行 。 你 会 发 现 没 有 与 if 语句 相对 应 的 else 语句 ， 所 以 代码 对 不 包 
含 字符 串 [Note] 的 行 不 做 任何 处 理 。 对 于 包含 字符 串 [Note] 的 行 ， 第 11-21 行 代码 对 这 
行 数据 进行 解析 ， 将 某 些 特定 的 数据 加 载 到 前 面 的 列表 和 字典 中 。 


第 11 行 代码 使 用 string 模块 的 split() 方法 按照 空格 将 行进 行 拆 分 (最 多 使 用 4 个 空格 
拆 分 4 次 )， 然 后 将 从 每 行 中 拆 分 出 的 5 个 部 分 赋 给 一 个 列表 变量 row_tlist。 我 们 限制 了 
split() 方法 使 用 空格 拆 分 的 次 数 ， 因 为 前 4 个 空格 用 来 分 隔 出 数据 的 4 个 不 同 片 段 ， 其 
余 的 空格 出 现在 错误 消息 中 ， 应 该 保留 为 错误 消息 的 一 部 分 。 


第 12 行 代码 取出 row list 中 的 第 一 个 元 素 (一 个 日 期 )， 并 除去 日 期 两 端 任何 多 余 的 空 
格 、 制 表 符 和 换行 符 ， 然 后 将 其 赋 给 变量 day, 


第 13 行 代码 取出 row list 中 的 第 五 个 元 素 (错误 消息 )， 并 除去 错误 消息 两 端 任何 多 余 的 
空格 、 制 表 符 和 换行 符 ， 然 后 将 其 赋 给 变量 note, 


第 14 行 代码 是 一 个 if 语句， 检验 变量 note 中 的 错误 消息 是 否 还 没有 包含 在 列表 notes 
中 。 如 果 没 有 ， 那 么 第 15 行 代 码 就 使 用 append) 方法 将 错误 消息 追加 到 列表 中 。 通 过 检 
验 错误 消息 是 否 存 在 ， 并 仅 将 不 在 列表 中 的 错误 消息 添加 到 列表 中 ， 就 可 以 保证 得 到 一 个 
包含 输入 文件 中 所 有 不 重复 的 错误 消息 的 列表 。 


第 16 行 代码 是 一 个 if 语句， 检验 变量 day 中 的 日 期 是 否 还 不 是 字典 messages 中 的 一 个 
键 。 如 果 不 是 ， 那 么 第 17 行 代码 就 将 这 个 日 期 作为 字典 键 添 加 到 messages 字典 中 ， 并 创 
建 一 个 空 字典 ， 作 为 与 这 个 新 的 日 期 键 对 应 的 值 


第 18 行 代码 是 一 个 if 语句 ， 检 验 变 量 note 中 的 错误 消息 是 否 还 不 是 内 部 字典 中 的 一 个 
键 ， 这 个 内 部 字典 是 外 部 字典 中 与 某 个 日 期 键 对 应 的 值 。 如 果 不 是 ， 那 么 第 19 行 代码 就 
将 错误 消息 作为 内 部 字典 的 键 添 加 到 内 部 字典 中 ， 并 将 与 这 个 键 对 应 的 值 设 为 1， 这 个 值 
是 用 来 计数 的 。 

第 20 行 代码 是 一 个 else 语句 ， 是 第 18 行 中 if 语句 的 补充 。 这 行 代码 处 理 一 条 具体 错误 
消息 在 某 一 天 出 现 多 次 的 情况 。 当 这 种 情况 发 生 时 ， 第 21 行 代 码 将 与 这 条 错误 消息 对 应 
的 计数 值 增加 1。 第 20 和 21 行 代 码 保证 与 每 条 错误 消息 对 应 的 计数 值 都 能 够 反映 出 这 条 
错误 消息 在 某 一 天 出 现 的 次 数 。 


当 脚 本 处 理 了 错误 日 志文 件 中 的 所 有 行 之 后 ， 字 典 messages 中 将 包含 很 多 键 - 值 对 。 这 些 
键 是 有 错误 消息 发 生 的 所 有 不 重复 的 日 期 ， 与 其 对 应 的 值 是 另外 一 些 字典 ， 其 中 有 各 自 的 
键 - 值 对 。 这 些 内 部 字典 中 的 键 是 发 生 于 某 个 日 期 的 不 重复 的 错误 消息 ， 与 这 些 键 对 应 的 
值 是 一 个 整数 计数 值 ， 表 示 这 个 错误 消息 在 某 个 日 期 发 生 的 次 数 。 
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第 22 行 代码 打开 输出 文件 以 供 输出 ， 并 创建 一 个 写 文件 对 象 filewriter， 用 来 将 数据 写 
入 输出 文件 。 


第 23 行 代码 创建 了 一 个 列表 变量 header， 并 将 字符 串 Date 赋 给 这 个 列表 。 第 24 行 代码 
使 用 extend C) 方法 将 列表 变量 notes 中 的 内 容 扩 展 到 列表 变量 header 中 。 这 样 ，header 
中 的 第 一 个 元 素 就 是 字符 串 Date， 其 他 元 素 则 是 来 自 于 列表 notes 的 不 重复 的 错误 消息 。 


第 25 行 代码 使 用 str() 和 map() 函数 以 及 join() 方法 ， 将 列表 变量 header 中 的 内 容 在 写 
入 输出 文件 之 前 转换 成 一 个 长 字符 串 。map() 函数 在 header 中 的 每 个 元 素 上 应 用 str() ER 
数 ， 确 保 header 中 的 每 个 元 素 都 是 字符 串 。 然 后 使 用 string 模块 的 joinO 方法 在 变量 
header 中 的 每 个 字符 串 之 间 插 入 一 个 挟 号 ， 创 建 一 个 由 逗号 分 隔 各 个 值 的 长 字符 串 。 最 
后 ， 向 长 字符 串 的 最 后 添加 一 个 换行 符 。 这 个 长 字符 串 包含 由 逗号 分 隔 的 列 标题 ， 末 尾 有 
一 个 换行 符 ， 将 作为 写 入 CSV 输出 文件 中 的 第 一 行 输 出 数据 。 


第 26 行 代码 在 命令 行 窗口 (或 终端 窗口 ) 中 打印 出 header 中 的 值 ， 也 就 是 一 个 包含 由 去 
号 分 隔 的 列 标题 的 长 字符 串 ， 这 样 我 们 就 可 以 检查 一 下 要 写 入 输出 文件 的 内 容 了 。 然 后 第 
27 行 代码 使 用 filewriter 对 象 的 write 方法 将 这 个 标题 行 写 入 输出 文件 。 


第 28 行 代码 创建 了 一 个 for 循环 ， 并 使 用 items 函数 在 messages 字典 的 键 (变量 day) 和 
E (变量 day value) 之 间 迭 代 。 和 前 面 的 示例 一 样 ， 第 29 行 代码 创建 了 一 个 空 列表 变量 
row_of_output， 用 来 保存 写 入 输出 文件 的 每 行 数据 。 因 为 我 们 已 经 将 标题 行 写 入 了 输出 文 
件 ， 所 以 知道 第 一 列 数据 是 日 期 。 因 此 ， 应 该 将 日 期 作为 第 一 个 追加 到 row of output 中 
的 数据 。 确 实 ， 第 30 行 代码 使 用 append 方法 将 字典 messages 中 的 第 一 个 日 期 追加 到 了 
row_of_output 中 。 


此 后 ， 第 31-35 行 代码 在 列表 变量 notes 中 的 错误 消息 之 间 迭 代 ， 并 判断 在 当前 正在 处 理 
的 日 期 中 ， 每 条 错误 消息 是 否 发 生 。 如 有 果 已 经 发 生 ， 代 码 就 将 与 这 条 错误 消息 对 应 的 计数 
值 添加 到 行 中 的 正确 位 置 。 如 果 在 当前 正在 处 理 的 日 期 中 ， 这 条 错误 消息 没有 发 生 ， 那 么 
代码 就 将 0 添加 到 行 中 的 正确 位 置 。 


特别 地 ， 第 31 行 是 一 个 for 循环 ， 使 用 range 和 len 国 数 按照 索引 位 置 在 notes 中 的 各 个 
EZE. 
第 32 行 代码 是 一 个 if 语句 ， 检 验 notes 中 的 每 条 错误 消息 是 否 出 现在 当前 处 理 日 期 对 应 
的 错误 消息 列表 中 。 换 句 话 说 ，day_value 是 与 当前 处 理 日 期 对 应 的 内 部 字典 ，keys 函数 
创建 了 一 个 内 部 字典 键 的 列表 ， 内 部 字典 的 键 就 是 在 当前 处 理 日 期 发 生 的 错误 消息 。 

对 于 notes 中 的 每 条 错误 消息 ， 如 果 错 误 消 息 在 当前 处 理 日 期 发 生 ， 也 就 出 现在 了 当前 处 
理 日 期 对 应 的 错误 消息 列表 中 ， 那 么 第 33 行 代码 就 使 用 append 方法 将 与 错误 消息 对 应 的 
计数 值 追 加 到 row of output 中 。 通 过 使 用 notes 中 错误 消息 的 索引 值 ， 可 以 保证 为 每 条 
错误 消息 提取 出 正确 的 计数 值 。 

例如 ， 列 表 notes 中 的 第 一 条 错误 消息 是 InnoDB: Compressed tables use zlib 1.2.3， 你 
可 以 使 用 notes[6] 引用 这 个 字符 串 。 当 你 运行 这 个 脚本 时 ， 在 命令 行 窗口 或 终端 窗口 中 可 
以 看 到 ， 这 个 字符 串 是 输出 文件 中 第 二 列 的 标题 。 从 屏幕 上 的 输出 还 可 以 看 出 ， 这 条 错误 
消息 在 2014-03-07 HILT 3 次 。 
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再 回顾 一 下 脚本 中 的 第 28-35 行 代码 ， 并 记 住 这 个 日 期 和 错误 消息 ， 看 看 代码 是 如 何 将 正 
确 的 数据 写 到 输出 文件 中 的 。 第 28 行 代码 创建 了 一 个 for 循环 ， 在 字典 messages 中 的 所 
有 日 期 之 间 循 环 ， 所 以 在 某 个 时 候 ，for 循环 会 处 理 到 2014-03-07 这 个 日 期 。 当 第 28 行 
代码 开始 处 理 2014-03-07 时 ， 代 码 已 经 准备 好 了 内 部 字典 中 的 错误 消息 和 与 之 对 应 的 计数 
E (因为 它们 就 是 day. value 字典 中 的 键 和 值 )。 在 处 理 2014-03-07 时 ， 第 31 行 代码 创建 
了 男 一 个 for 循环 ， 在 列表 notes 的 索引 值 之 间 循 环 。 第 一 次 循环 时 ， 索 引 值 为 0， 所 以 
在 第 32 行 代码 中 ，notes[0] 等 于 InnoDB: Compressed tables use zlib 1.2.3。 因 为 正在 
处 理 2014-03-07 这 个 日 期 ，notes[9] 中 的 值 位 于 与 这 个 日 期 对 应 的 内 部 字典 的 键 的 集合 
中 ， 所 以 第 32 行 代码 为 True， 第 33 行 代码 被 执行 。 在 第 33 行 代码 中 ，notes[index] 就 
是 notes[0], day value[notes[0]] 就 是 day value["InnoDB: Compressed tables use zlib 
1.2.3"]， 这 个 表达 式 指 向 的 就 是 内 部 字典 中 与 这 个 键 对 应 的 值 ， 对 于 2014-03-07, X 
个 值 就 是 整数 3。 以 上 操作 的 结果 就 是 ， 在 输出 文件 的 2014-03-07 这 一 行 中 ， 错 误 消 息 
InnoDB: Compressed tables use zlib 1.2.3 这 一 列 的 值 为 3。 


第 34 和 35 行 代码 处 理 列表 notes 中 的 错误 消息 没有 出 现在 一 个 特定 日 期 的 错误 消息 列表 
中 的 情况 。 在 这 种 情况 下 ， 第 35 行 代码 向 输出 行 中 正确 的 列 的 位 置 添加 一 个 0。 例 如 ， 列 
表 notes 中 的 最 后 一 条 错误 消息 是 InnoDB:IPv6 is available.。 这 条 错误 消息 没有 发 生 
在 2014-03-07， 所 以 在 2014-03-07 这 条 输出 行 中 ， 需 要 在 对 应 这 条 错误 消息 的 列 中 记录 一 
个 0。 当 第 32 行 代码 检验 notes 中 的 最 后 一 个 值 (notes[5]，InnoDB:IPv6 is available.) 
是 否 在 内 部 字典 的 键 集 合 中 时 ， 结 果 就 是 Fase， 所 以 执行 第 34 行 代码 中 的 else 语句 ， 
使 用 第 35 行 代码 将 0 添加 到 row of output 的 最 后 一 列 中 。 其 余 日 期 和 错误 消息 的 计数 值 
也 是 以 同样 的 方式 添加 的 。 


第 36 行 代码 使 用 与 第 25 行 代码 同样 的 处 理 过 程 ， 将 列表 变量 row_of_output 中 的 内 容 在 
写 入 输出 文件 之 前 转换 成 一 个 长 字符 串 。map 函数 对 列表 变量 row of. output 中 的 每 个 元 素 
使 用 str 函数 ， 保 证 变量 中 的 每 个 元 素 都 是 一 个 字符 串 。 然 后 使 用 string 模块 的 join 方 
法 在 变量 row of output 中 的 每 个 字符 串 之 间 插 入 一 个 辟 号 ， 创 建 一 个 由 过 号 分 隔 各 个 值 
的 长 字符 串 。 最 后 ， 向 长 字符 串 的 最 后 添加 一 个 换行 符 。 这 个 长 字符 串 包含 由 逗号 分 隔 
列 标题 ， 末 尾 有 一 个 换行 符 ， 被 赋 给 变量 output， 将 作为 一 行 输 出 写 入 CSV 输出 文件 。 
第 37 行 代码 在 命令 行 窗口 或 终端 窗口 打印 出 output 中 的 值 ， 也 就 是 一 个 由 逗号 分 隔 各 
个 值 的 长 字符 串 ， 这 样 你 可 以 检查 一 下 要 写 入 输出 文件 的 内 容 。 然 后 第 38 行 代码 使 用 
filewriter 对 象 的 write 方法 将 这 行 输 出 写 入 输出 文件 。 
最 后 ， 第 39 行 代码 使 用 filewriter 的 close 方法 关闭 filewriter HR, 

我 们 已 经 完成 了 Python 脚本 ， 现 在 可 以 使 用 脚本 计算 不 同 的 错误 随 着 时 间 变 化 发 生 的 次 
数 ， 并 将 结果 写 入 CSV 输出 文件 了 。 要 完成 这 个 操作 ， 在 命令 行 中 输入 以 下 命令 ， 然 后 
按 回 车 键 : 


python 3parse text file.py mysql_server_error_log.txt\ 
output_files\3app_output.csv 


你 可 以 看 到 在 命令 行 窗口 或 终端 窗口 打印 出 的 输出 ， 如 图 5-12 所 示 。 





















































































































































ay ff 



































dows [Version 6.1.7601 5 
copyright un 2009 Mo Corporation. All rights reserved. 


Ic:\Users\Clinton>cd Desktop 
server error t output filesM3app output.csv 


ng atomics to unt buffer pool pages,InnoDB: 5. 
ompleted init ion of buffer pool,InnoDB: IPv6 


2014-03-07,3, 
2014-02-03,2,2,1,1,0,0 

















图 5-12. 在 MySQL 错误 日 志文 件 mysql. server. error. log.txt L217 3parse text file.py 的 结果 ， 


显示 在 命令 行 窗口 中 





打印 在 命令 行 窗口 中 的 输出 展示 了 写 在 输出 文件 3app_output.csv 中 的 数据 。 输 出 的 第 一 行 
是 标题 行 ， 展示 了 输出 文件 中 所 有 列 的 标题 。 第 一 个 列 标题 Date a eee 


` 

















文件 中 记录 错误 消息 的 日 期 。 这 一 列 说 明 输入 文件 中 包含 3 个 不 重复 的 日 期 。 其 余 6 个 列 

















标题 是 输入 文件 中 出 现 的 错误 消息 ， 因 此 输入 文件 中 包含 6 个 不 重复 的 错误 消息 。 这 6 列 
中 包含 了 输入 文件 中 一 个 具体 的 错误 消息 在 每 个 日 期 出 现 的 次 数 。 例 如 ， 输 出 中 的 最 后 一 

































































列表 示 错 误 消 息 InnoDB:IPv6 is available. 在 2014-10-27 出 现 了 2 次， 在 2014-02-03 出 
HLT Ok, f£ 2014-03-07 出 现 了 0 次 。 
输出 文件 3app_output.csv 中 的 内 容 和 打印 在 命令 行 窗口 中 的 输出 一 样 ， 如 图 5-13 所 示 。 








1 Date InnoDB: ComprtlnnoDB: Using alnnoDB: 5.6.16 </usr/local/mysq InnoDB: CompleInnoDB: IPv6 is availa 
2 10/27/2014 0 0 1 1 2 2 

3 3/7/2014 3 1 1 1 0 0 

4 2/3/2014 2 2 1 1 0 0 

13 

po — = rE i i ej 


opp. output — Microsoft Excel non-commercial use: 





Bad 














B 5-13: CSV 文件 3app_output.csv 中 的 3parse_tex_file.py 的 输出 〈 某 个 错误 消息 在 某 一 天 发 生 


的 次 数 ) ， 显 示 在 Excel 工作 表 中 























这 个 屏幕 截图 是 在 Excel 中 打开 的 CSV 输出 文件 ， 显 示 了 写 在 输出 文件 中 的 数据 。 在 标题 
行 中 ， 日 期 标题 后 面 是 6 个 错误 消息 ， 由 于 横向 空间 的 限制 ， 在 屏幕 截图 中 你 看 不 到 完整 
的 错误 消息 〈 如 果 你 创建 了 这 个 文件 ， 可 以 通过 增加 列 的 宽度 ， 看 看 完整 的 消息 )。 


尔 可 以 看 到 ， 在 输出 文件 中 ， 行 表示 某 个 日 期 ， 列 表示 某 个 错误 消息 ， 这 使 得 这 个 文件 看 
上 去 比较 怪 。 在 这 个 简单 的 例子 中 ,错误 消 息 ( 列 ) 的 数量 多 于 日 期 〈 行 ) 的 数量 ， 似 乎 
更 应 该 使 用 行 来 表示 错误 消息 。 通 常 ， 在 更 大 的 日 志文 件 中 ， 日 期 的 数量 很 可 能 比 错误 消 
息 多 。 在 这 种 情况 下 ， 就 更 应 该 用 行 表示 日 期 (因为 行 更 多 一 些 )， 用 列表 示 错 误 消 息 。 
最 终 ， 是 用 行 表 示 日 期 列表 示 错 误 消 息 ， 还 是 相反 ， 取 决 于 你 的 实际 分 析 需 要 和 个 人 偏 
好 。 你 可 以 修改 现 有 代码 将 输出 进行 转 置 ， 用 列表 示 日 期 用 行 表示 错误 消息 ， 这 会 是 一 
个 很 好 的 练习 。 


这 个 应 用 程序 综合 运用 我 们 在 第 1 章 中 学 习 的 儿 种 技术 (例如 填充 一 个 媒 套 字典 ) 来 解决 
一 个 常见 的 实际 问题 。 商 业 分 析 师 经 常 需要 分 析 文本 文件 ， 找 出 关键 数据 ， 并 将 数据 进行 
聚集 或 摘要 ， 以 获取 新 的 知识 。 在 很 多 情况 下 ， 我 们 需要 以 不 同方 式 处 理 成 千 上 万 条 数 
据 ， 所 以 手动 分 析 数 据 是 不 可 能 的 。 


这 一 节 演 示 了 一 种 可 扩展 的 方法 ， 这 种 方法 可 以 从 文本 文件 中 解析 出 数据 ， 并 使 用 解析 出 
的 数据 计算 基本 的 统计 量 。 为 了 使 这 个 示例 尽量 简单 ， 我 们 仅仅 使 用 了 一 个 很 短 的 错误 日 
志文 件 。 但 是 ， 这 种 方法 具有 很 好 的 扩展 性 ， 你 可 以 使 用 它 来 解析 更 大 的 日 志文 件 ， 也 可 
以 修改 一 下 代码 ， 来 处 理 多 个 文本 文件 中 的 数据 。 


5.4 ”本章 练习 


(第 一 个 应 用 程序 在 保存 于 一 个 文件 夹 中 的 输入 文件 中 进行 搜索 。 但 是 ， 有 些 时 候 输 入 
文件 是 保存 在 几 个 姐 套 的 文件 夹 中 的 。 修 改 第 一 个 应 用 程序 中 的 代码 ， 使 脚本 可 以 遍 
历 一 组 区 套 文件 夹 并 处 理 保存 在 所 有 文件 夹 中 的 输入 文件 。 提 示 : 在 Internet 上 搜索 
“Python os walk” ?, 

(2) 修改 第 二 个 应 用 程序 ， 计 算 你 从 铜牌 服务 包 、 银 牌 服务 包 和 金牌 服务 包 客 户 中 获得 的 
收入 ， 假 设 铜牌 服务 包 收 入 为 $20/ 月 ， 银 牌 服务 包 收 入 为 $40/ 月 ， 人 金牌 服务 包 收 入 为 
$50/ 月 。 

(3) 练习 使 用 字典 来 为 数据 分 类 。 例 如 ， 将 Excel 工作 表 或 CSV 文件 中 的 数据 解析 成 一 个 
字典 ,使 输入 文件 中 每 一 列 都 是 字典 中 的 一 个 键 - 值 对 。 也 就 是 说 ， 每 列 标题 是 字典 中 
的 键 ， 每 个 键 对 应 的 值 就 是 相应 列 中 的 数据 。 








































































































注 2: 你 可 以 在 https://docs.python.org/3/library/os.html 和 http://www.pythoncentral.io/how-to-traverse-a-directory- 
tree-in-python-guide-to-os-walk/ 上 获得 关于 遍历 目录 树 的 更 多 信息 。 
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第 6 章 
图 与 图 表 








创建 图 与 图 表 是 很 多 分 析 项 目 中 的 一 个 重要 步骤 ， 它 通常 是 项 目 开始 时 探索 性 数据 分 析 
(EDA) 的 一 部 分 ， 或 者 在 项 目 报告 阶段 向 其 他 人 介绍 你 的 数据 分 析 结 果 时 使 用 。 数 据 可 
视 化 可 以 使 你 看 到 变量 的 分 布 和 变量 之 间 的 关系 ， 还 可 以 检查 建 模 过 程 中 的 假设 。 


Python 提供 了 若干 种 用 于 绘图 的 扩展 包 ， 包 括 matplotlib, pandas, ggplot 和 seaborn, 
因为 matplotlib 是 最 基础 的 扩展 包 ， 它 为 pandas 和 seaborn 提供 了 一 些 基 础 的 绘图 概念 和 
语法 ， 所 以 这 里 先 介绍 matplotlib。 然 后 ,我们 通过 一 些 示 例 ， 看 看 其 他 扩展 包 如 何 提 供 
更 简洁 的 绘图 语法 ,或 者 提供 一 些 额 外 的 功能 















































6.1 matplotlib 


matplotlib 是 一 个 绘图 库 ， 创 建 的 图 形 可 达到 出 版 的 质量 要 求 。 它 可 以 创建 常用 的 统计 
图 ， 包 括 条 形 图 、 箱 线 图 、 折 线 图 、 散 点 图 和 直方 图 。 它 还 有 一 些 扩展 工具 箱 ， 比 如 
basemap 和 cartopy， 用 于 制作 地 图 ， 以 及 mptot3d4， 用 于 进行 3D 绘图 。 


matplotlib 提供 了 对 图 形 各 个 部 分 进行 定制 的 功能 。 例 如 ， 它 可 以 设置 图 形 的 形状 和 大 
小 、x 轴 与 y 轴 的 范围 和 标 度 、x 轴 与 》 轴 的 刻度 线 和 标签 、 图 例 以 及 图 形 的 标题 。 你 可 以 
参考 一 下 matplotlib 初学 者 指南 和 API (http://matplotlib.org/users/beginner.html) ， 以 获得 
更 多 的 关于 定制 图 形 的 信息 。 


下 面 的 示例 演示 了 如 何 使 用 matplottib 创建 最 常用 的 统计 图 形 。 


6.1.1 条 形 图 


条 形 图 表示 一 组 分 类 数值 ， 比 如 计数 值 。 常 用 的 条 形 图 包括 垂直 图 、 水 平 图 、 堆 积 图 和 分 
组 图 。 下 面 的 脚本 bar_plot.py 演示 了 如 果 创 建 一 个 垂直 条 形 图 
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#!/usr/bin/env python3 

import matplotlib.pyplot as plt 

plt.style.use('ggplot') 

customers - ['ABC', 'DEF', 'GHI', 'JKL', 'MNO'] 

customers index - range(len(customers)) 

sale amounts - [127, 90, 201, 111, 232] 

fig = plt.figure() 

ax1 = fig.add subplot(1,1,1) 

axi.bar(customers index, sale amounts, align='center', color='darkblue' ) 
10 axi.xaxis.set ticks position( 'bottom') 

11 axi.yaxis.set ticks position('Lleft') 

12 plt.xticks(customers index, customers, rotation-0, fontsize-'small') 
13 plt.xlabel('Customer Name') 

14 plt.ylabel('Sale Amount!) 

15 plt.title('Sale Amount per Customer') 

16 plt.savefig('bar plot.png', dpi-400, bbox inches-'tight') 

17 plt.show() 


第 2 行 代码 是 惯常 的 import 语句 。 第 3 行 代码 使 用 ggplot 样式 表 来 模拟 agplot2 
图 形 ，ggplot2 是 一 个 常用 的 R 语言 绘图 包 。 


第 4、5 和 6 行 代码 为 条 形 图 准备 数据 。 我 创建 了 一 个 客户 索引 列表 ， 因 为 xticks 
设置 标签 时 要 求索 引 位 置 和 标签 值 。 


AONDUNBRWNP 


Ko) 























使 用 matplotlib 绘图 时 ， 首 先 要 创建 一 个 基础 图 ， 然 后 在 基础 图 中 创建 一 个 或 多 个 子 图 。 








风格 的 


函数 在 














脚本 中 的 第 7 行 代码 创建 了 一 个 基础 图 。 第 8 行 代码 向 基础 图 中 添加 了 一 个 子 图 。 























因为 可 


以 向 基础 图 中 添加 多 个 子 图 ， 所 以 必须 指定 要 创建 几 行 和 几 列 子 图 ， 以 及 使 用 哪个 子 图 。 





























1, 1, 1 表示 创建 1 行 1 列 的 子 图 ， 并 使 用 第 1 个 也 是 唯一 的 一 个 子 图 。 

















第 9 行 代码 创建 条 形 图 。customer_index 设置 条 形 左 侧 在 x 轴 上 的 坐标 。sale_amounts i 











置 条 形 的 高 度 。align='center' 设置 条 形 与 标签 中 间 对 齐 。color='darkblue' 设置 
颜色 。 





条 形 的 


第 10 和 11 行 代码 通过 设置 刻度 线 位 置 在 x 轴 底 部 和 y 轴 左 侧 ， 使 图 形 的 上 部 和 右 侧 不 显 














示 刻 度 线 。 


第 12 行 代码 将 条 形 的 刻度 线 标签 由 客户 索引 值 更 改 为 实际 的 客户 名 称 。rotation=0 表示 
刻度 标签 应 该 是 水 平 的 ， 而 不 是 倾斜 一 个 角度 。fontsize=' small' 将 刻度 标签 的 字体 设 为 


小 字体 。 
第 13、14 和 15 行 代 码 向 图 中 添加 x* 轴 标 签 、y 轴 标 签 和 图 形 标题 。 
第 16 行 代 码 将 统计 图 保存 在 当前 文件 夹 中 ， 文 件 名 为 bar_plot.png。dpi=490 设置 图 






































形 分 辩 


率 [ 每 英寸 (1 英寸 =2.54 ER) 的 点 数 ) ]，bbox_inches='tight' 表示 在 保存 图 形 时 ， 将 








图 形 四 周 的 空白 部 分 去 掉 。 


第 17 行 代码 指示 matplotlib 在 一 个 新 窗口 中 显示 统计 图 。 结 果 如 
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6-1 所 示 。 
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6-1; matplotlib 制作 的 条 形 图 


6.1.2 HAA 


直方 图 用 来 表示 数值 分 布 。 常 用 的 直方 图 包括 频率 分 布 、 频 率 密度 分 布 、 概 率 分 布 和 概率 
密度 分 布 。 下 面 的 脚本 histogram.py 演示 了 如 何 创建 一 个 频率 分 布 图 : 


#!/usr/bin/env python3 

import numpy as np 

import matplotlib.pyplot as plt 

plt.style.use('ggplot') 

mui, mu2, sigma = 100, 130, 15 

x1 = mui + sigma*np.random.randn(10000) 

x2 = mu2 + sigma*np.random.randn(10000) 

fig = plt.figure() 

ax1 = fig.add subplot(1,1,1) 

n, bins, patches = axi.hist(x1, bins=50, normed-False, color='darkgreen' ) 
n, bins, patches = axi.hist(x2, bins=50, normed-False, color='orange', alpha=0.5) 
ax1.xaxis.set_ticks_position('bottom') 
ax1.yaxis.set_ticks_position('left') 

plt.xlabel('Bins') 

plt.ylabel('Number of Values in Bin') 

fig.suptitle('Histograms', fontsize=14, fontweight='bold') 
axi.set_title('Two Frequency Distributions' ) 

plt.savefig('histogram.png', dpi-400, bbox inches-'tight') 

plt.show() 
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第 6 和 7 行 代 码 使 用 Python 的 随机 数 生成 器 创建 两 个 正 态 分 布 变量 x1 和 x2, x1 的 均值 
是 100，x2 的 均值 是 130， 所 以 两 个 分 布 会 有 一 些 重合 ， 但 不 会 是 一 个 覆盖 掉 男 一 个 。 第 
10 和 11 行 代码 为 这 两 个 变量 创建 两 个 柱 形 图 ， 或 称 频 率 分 布 图 。bins=59 表示 每 个 变量 的 
值 应 该 被 分 成 50 份 。normed=False 表示 直方 图 显示 的 是 频率 分 布 ， 而 不 是 概率 密度 。 第 
一 个 直方 图 是 暗 绿 色 ， 第 二 个 直方 图 是 柳 色 。alpha=90.5 表示 第 二 个 直方 图 应 该 是 透明 的 ， 
这 样 我 们 就 可 以 看 到 两 个 直方 图 重 又 部 分 的 瞳 绿 色 图 。 

第 16 行 代码 为 基础 图 添加 一 个 居中 的 标题 ， 字 体 大 小 为 14， 粗 体 。 第 17 行 代 码 为 子 医 
添加 一 个 居中 的 标题 ， 位 于 基础 图 标题 下 面 。 我 们 用 这 两 行 代码 为 统计 图 创建 标题 和 副 标 
题 ， 如 图 6-2 所 示 。 
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6-2; natplotlib 制作 的 两 个 直方 


6.1.3 ”折线 图 


折线 图 中 的 数值 点 在 一 条 折线 上 。 它 通常 用 来 表示 数据 随 着 时 间 发 生 的 变化 。 下 面 的 脚本 
line_plot.py 演示 了 如 何 创 建 一 幅 折线 图 : 


#!/usr/bin/env python3 

from numpy.random import randn 
import matplotlib.pyplot as plt 
plt.style.use('ggplot') 

plot data1 = randn(50).cumsum() 
plot data2 - randn(50).cumsum() 
plot data3 - randn(50).cumsum() 
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8 plot data4 = randn(50).cumsum() 


9 fig = plt.figure() 


10 axi = fig.add subplot(1,1,1) 


11 axi.plot(plot datai, marker=r'o', 


12 label='Blue Solid') 


13 axi.plot(plot data2, marker=r'+', 


14 label-'Red Dashed') 


15 ax1.plot(plot_data3, marker-r'*', 


16 label='Green Dash Dot') 


17 axi.plot(plot_data4, marker=r's', 


18 label-'Orange Dotted') 

19 axi.xaxis.set ticks position('bottom') 
20 axi.yaxis.set ticks position('left') 
21 axi.set title('Line Plots: Markers, Colors, and Linestyles') 


22 plt.xlabel('Draw') 
23 plt.ylabel('Random 


Number ' ) 


24 plt.legend(loc-'best') 
25 plt.savefig('line plot.png', dpi=400, bbox inches-'tight') 


26 plt.show() 


同样 ， 我 们 在 第 5-8 行 代 码 中 使 用 rand 创建 绘 
建 4 条 折线 。 每 条 折线 都 可 以 通过 选项 进行 设置 ， 使 用 不 同 的 数据 点 类 如 








Label 参数 保证 折线 在 图 例 中 可 以 正确 标记 。 


第 24 行 代码 为 统计 图 创建 
放 在 最 合适 的 位 置 。 或 者 ， 














color=u'blue', linestyle='-',\ 


color=u'red', linestyle='--',\ 


color=u'green', linestyle='-.',\ 


color=u'orange', lLinestyle=':',\ 





图 所 用 的 随机 数据 。 第 11~18 行 代码 创 
U. Bie AZ AY 


el fil], locz'best' 指示 matplotlib 根据 图 中 的 空白 部 分 将 图 例 


你 也 可 以 使 用 这 个 参数 为 图 例 指定 一 个 具体 位 置 。 图 6-3 展示 





了 这 个 脚本 创建 的 折线 图 。 
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6-3: matplotlib 创建 的 折线 图 (包含 4 条 折线 ) 
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6.1.4 HAR 


散 点 图 表示 两 个 数值 变量 之 间 的 相对 关系 ， 这 两 个 变量 分 别 位 于 两 个 数 轴 上 。 例 如 ， 身 高 
与 体重 , 或 者 供给 与 需求 。 散 点 图 有 助 于 识别 出 变量 之 间 是 否 具有 正 相 关 (图 中 的 点 集中 
于 某 个 具体 参数 ) 或 负 相 关 (图 中 的 点 像 云 一 样 发 散 )。 Ue 条 回归 曲线 ， 也 就 
是 使 方差 最 小 的 曲线 ， 通 过 图 中 的 点 基于 一 个 变量 的 值 预测 另 一 个 变量 的 值 。 


下 面 的 脚本 scatter_plot.py 演示 了 如 何 创建 一 幅 散 点 图 ， 并 在 各 个 点 之 间 画 一 条 回归 曲线 : 








































































































1 #!/usr/bin/env python3 

2 import numpy as np 

3 import matplotlib.pyplot as plt 

4 plt.style.use('ggplot') 

5 x = np.arange(start-1., stop-15., step-1.) 

6 y linear = x + 5. * np.random.randn(14.) 

7 y, quadratic = x**2 + 10. * np.random.randn(14.) 

8 fn linear = np.polyid(np.polyfit(x, y linear, deg=1)) 

9 fn quadratic = np.polyid(np.polyfit(x, y quadratic, deg-2)) 
10 fig = plt.figure() 

11 ax1 = fig.add subplot(1,1,1) 

12 axi.plot(x, y linear, 'bo', x, y quadratic, 'go', \ 

13 x, fn linear(x), 'b-', x, fn quadratic(x), 'g-', linewidthz2.) 
14 axi.xaxis.set ticks position('bottom') 

15 axi.yaxis.set ticks position('left') 

16 axi.set title('Scatter Plots Regression Lines') 

17 plt.xlabel('x') 

18 plt.ylabel('f(x)') 

19 plt.xlim((min(x)-1., max(x)+1.)) 

20 plt.ylim((min(y_quadratic)-10., max(y_quadratic)+10.)) 

21 plt.savefig('scatter plot.png', dpi-400, bbox inches-'tight') 
22 plt.show() 


这 里 我 使 用 了 一 点 小 技巧 ， 在 第 6 和 7 行 代码 中 ， 通 过 随机 数 使 数据 与 一 条 直线 和 一 条 二 
次 曲线 稍稍 偏离 。 然 后 ， 在 第 8 和 9 行 代码 中 ， 使 用 numpy 的 polyfit ER 函数 通过 两 组 数据 
点 (x，y_Linear) 和 (x, y quadratic) 拟 合 出 一 条 直线 和 一 条 二 次 曲线 ， 再 使 用 polyid B 
数 根据 直线 和 二 次 曲线 的 参数 生成 一 个 线形 方程 和 二 次 方程 。 如 果 是 实际 数据 ， 你 可 以 使 
用 polyfit 国 数 计算 出 某 个 阶 数 的 多 项 式 拟 合 模型 的 系数 。potLy1d 函数 可 以 使 用 这 些 系 数 
创建 实际 的 多 项 式 方程 。 

第 12 行 代 码 创 建 带 有 两 条 回归 曲线 的 散 点 图 。'bo' 表示 (x, y linear) 点 是 蓝 色 圆圈 ， 
'go' 表示 (x, y quadratic) 点 是 绿色 圆圈 。 同 样 ，'b-' 表示 (x, y_linear) 点 之 间 的 线 是 
一 条 蓝 色 实 线 ，'g-' 表示 (x, y quadratic) 点 之 间 的 线 是 一 条 绿色 实 线 。 通 过 linewidth 
可 以 设置 线 的 宽度 。 


你 可 以 尝试 改变 这 些 显示 变量 ， 做 出 符合 自己 风格 的 统计 图 。 


第 19 和 20 行 代码 设置 了 x SHA y 轴 的 范围 。 这 两 条 曲线 使 用 min 和 max 函数 基于 实际 数据 
VUE eio, 你 也 可 以 使 用 有 具体 的 数值 设置 范围 ， 例 如 xLim(0，20) ylim(0, 200), 
如 果 你 没有 设置 坐标 轴 范 围 ， 那 么 matplotlib 会 殖 你 设置 。 脚 本 运行 的 结果 如 图 6-4 所 示 。 
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图 6-4: matplotlib 生成 的 散 点 图 以 及 线形 拟 合 曲线 和 二 次 拟 合 曲线 


6.1.5 箱 线 图 

箱 线 图 可 以 表示 出 数据 的 最 小 值 、 第 一 四 分 位 数 、 中 位 数 、 第 三 四 分 位 数 和 最 大 值 。 箱 体 
的 下 部 和 上 部 边缘 线 分 别 表 示 第 一 四 分 位 数 和 第 三 四 分 位 数 ， 箱 体 中 间 的 直线 表示 中 位 
数 。 箱 体 上 下 两 端 延 伸 出 去 的 直线 (whisker， 亦 称 为 “ 须 ”) 表示 非 离 群 点 的 最 小 值 和 最 
大 值 ， 在 直线 CN) 之 外 的 点 表示 离 群 点 。 


下 面 的 脚本 box, plot.py 演示 了 如 何 创建 一 幅 箱 线 图 : 


#!/usr/bin/env python3 

import numpy as np 

import matplotlib.pyplot as plt 

plt.style.use('ggplot') 

N - 500 

normal = np.random.normal(loc-0.0, scale=1.0, size=N) 

lognormal = np.random. Lognormal(mean=0.0, sigma=1.0, size=N) 

index value = np.random.random integers(low-0, high=N-1, size=N) 
normal sample - normal[index value] 

10 lognormal sample = lognormal[index value] 

11 box plot data - [normal,normal sample,lognormal,lognormal sample] 

12 fig = plt.figure() 

13 ax1 = fig.add subplot(1,1,1) 

14 box labels = ['normal','normal sample','lognormal','lognormal sample'] 
15 axi.boxplot(box plot data, notch=False, sym='.', vert=True, whis=1.5, V 
16 showmeans=True, labels-box labels) 
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17 ax1.xaxis.set_ticks_position('bottom' ) 

18 axi.yaxis.set ticks position('left') 

19 axi.set title('Box Plots: Resampling of Two Distributions') 
20 axi.set xlabel('Distribution') 

21 axi.set ylabel('Value') 

22 plt.savefig('box plot.png', dpi-400, bbox inches-'tight') 
23 plt.show() 


第 14 行 代码 创建 了 一 个 列表 box_tabets， 里 面 保存 着 每 个 箱 线 图 的 标签 。 在 下 一 行 代 码 
中 的 boxplot 函数 中 将 使 用 这 个 列表 。 


第 15 行 代码 使 用 boxplot 函数 创建 4 个 箱 线 图 。notch=False 表示 箱 体 是 矩形 ， 而 不 是 
在 中 间 收 缩 。sym='.' 表示 离 群 点 (就 是 直线 之 外 的 点 ) 使 用 圆 点 ， 而 不 是 默认 的 + 符 
号 。vert=True 表示 箱 体 是 垂直 的 ， 不 是 水 平 的 。whis=1.5 设 定 了 直线 从 第 一 四 分 位 数 和 
第 三 四 分 位 数 延 伸 出 的 范围 (例如: Q3+whis*IQR，IQR 就 是 四 分 位 距 ， 等 于 Q3-Q1)。 
showmeans=True 表示 箱 体 在 显示 中 位 数 的 同时 也 显示 均值 。LabeLs=box_Labets 表示 使 用 
box, labels 中 的 值 来 标记 箱 线 图 。 


这 个 脚本 的 运行 结果 如 图 6-5 所 示 。 




















































































































Box Plots: Resampling of Two Distributions 
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图 6-5: 正 态 分 布 和 对 数 正 态 分 布 数据 的 箱 线 图 ， 以 及 这 两 个 分 布 中 抽样 数据 的 箱 线 图 ， 由 
matplotlib 生成 





6.2 pandas 


pandas 通过 提供 一 个 可 以 作用 于 序列 和 数据 框 的 函数 pluot， 简 化 了 基于 序列 和 数据 框 中 的 
数据 创建 图 表 的 过 程 。plot 函数 默认 创建 折线 图 ， 你 还 可 以 通过 设置 参数 kind 创建 其 他 
类 型 的 图 表 。 


例如 ， 除 了 使 用 matplotlib 创建 标准 统计 图 ， 还 可 以 使 用 pandas 创建 其 他 类 型 的 统计 图 ， 
比如 六 边 箱 图 (hexagonal bin plot), RARE., WER, Andrews 曲线 图 、 平 行 坐标 图 、 
延迟 图 、 自 相关 图 和 自助 抽样 图 。 如 果 要 向 统计 图 中 添加 第 二 y 轴 、 误 差 棒 和 数据 表 ， 使 
用 pandas 可 以 很 直接 地 实现 。 


为 了 说 明 在 pandas 中 创建 统计 图 的 方法 ， 我 们 通过 下 面 的 脚本 pandas_plots.py 来 演示 如 何 
使 用 数据 框 中 的 数据 创建 一 对 条 形 图 和 箱 线 图 ， 并 将 它们 并 排放 置 : 


#!/usr/bin/env python3 
import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 
plt.style.use('ggplot') 
fig, axes = plt.subplots(nrows-1, ncols-2) 
ax1, ax2 - axes.ravel() 
data frame - pd.DataFrame(np.random.rand(5, 3), 
index-['Customer 1', 'Customer 2', 'Customer 3', 'Customer 4', 'Customer 5'], 
columns-pd.Index(['Metric 1', 'Metric 2', 'Metric 3'], name='Metrics')) 
data frame.plot(kindz'bar', ax=ax1, alpha=0.75, title='Bar Plot') 
plt.setp(ax1.get_xticklabels(), rotation=45, fontsize=10) 
plt.setp(axi.get yticklabels(), rotation=0, fontsize=10) 
ax1.set xlabel('Customer') 
axi.set ylabel('Value') 
ax1i.xaxis.set ticks position('bottom') 
ax1i.yaxis.set ticks position('left') 
colors = dict(boxes='DarkBlue', whiskers='Gray', medians='Red', caps='Black') 
data_frame.plot(kind='box', color=colors, sym='r.', ax=ax2, title='Box Plot') 
plt.setp(ax2.get xticklabels(), rotation=45, fontsize=10) 
plt.setp(ax2.get_yticklabels(), rotation=0, fontsize=10) 
ax2.set xlabel('Metric') 
ax2.set ylabel('Value') 
ax2.xaxis.set ticks position('bottom') 
ax2.yaxis.set ticks position('left') 
plt.savefig('pandas plots.png', dpi-400, bbox inches-'tight') 
plt.show() 


第 6 行 代 码 创 建 了 一 个 基础 图 和 两 个 并 排放 置 的 子 图 。 第 7 行 代码 使 用 ravel 函数 将 两 个 
子 图 分 别 赋 给 两 个 变量 ax1 和 ax2， 这 样 我 们 就 不 必 使 用 行 和 列 的 索引 (例如 ，axes[9,0] 
和 axes[0,1]) 来 引用 子 图 了 。 

第 11 行 代码 使 用 pandas 的 plot 函数 在 左 侧 子 图 中 创建 了 一 个 条 形 图 。 第 12 和 13 行 代码 
使 用 matplotlib 的 函数 来 设置 x atf y 轴 标 签 的 旋转 角度 和 字体 大 小 。 

第 18 行 代码 为 箱 线 图 单独 创建 了 一 个 颜色 字典 。 第 19 行 代码 在 右 侧 子 图 中 创建 了 一 个 箱 
线 图 ， 使 用 colors 变量 为 箱 线 图 各 部 分 着 色 ， 并 将 离 群 点 的 形状 设置 为 红色 圆 点 。 
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脚本 生成 的 条 形 图 和 箱 线 图 如 图 6-6 所 示 。 你 可 以 在 pandas 绘图 文档 (http://Pandas. 
pydata.org/Pandas-docs/stable/visualization.html) 中 学 习 到 创建 和 设置 统计 图 表 的 更 多 信息 。 
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6-6: pandas 生成 的 并 排放 置 的 条 形 图 和 箱 线 图 


6.3 ggplot 


ggplot 是 一 个 Python 绘图 包 ， 它 基于 及 语言 的 ggplot2 包 和 图 形 语 法 。ggplot 与 其 他 绘 
图 包 的 关键 区 别 是 它 的 语法 将 数据 与 实际 绘图 明确 地 分 离开 来 。 为 了 对 数据 进行 可 视 化 表 
I, ggplot 提供 了 儿 种 基本 元 素 : 几何 对 象 、 图 形 属性 和 标 度 。 除 此 之 外 ， 为 了 进行 更 高 
级 的 绘图 ，ggplot 还 提供 一 些 附 加 元 素 : 统计 变换 、 坐 标 系 、 子 窗口 和 可 视 化 主题 。 要 
想 获得 关于 ggplot 的 详细 信息 ， 可 以 参考 Hadley Wickham 的 著作 《ggplot2: 数据 分 析 
与 图 形 艺术 (第 2 版 )》， 也 可 以 参考 Leland Wilkinson 的 著作 : Grammar of Graphics, 2nd 
Edition (Springer). 

Python 的 ggplot 库 不 像 R 语言 的 ggplot2 库 那 样 成 熟 ， 所 以 它 不 具备 ggplot2 的 所 有 功 
能 ， 也 就 是 说 ， 它 没有 那么 多 的 几何 对 象 、 统 计 变 换 和 标 度 ， 也 没有 坐标 系 、 注 释 和 增强 
功能 。 在 与 ggplot 相关 的 包 进 行 了 升级 与 修改 之 后 ， 使 用 ggplot 也 可 能 会 遇 到 问题 。 例 
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如 ， 有 一 次 我 使 用 ggplot 创建 直方 图 时 就 遇 到 了 问题 ， 因 为 pandas 中 pivot table 方法 的 
关键 字 rows 和 cols 被 去 掉 了 ， 替 换 成 了 index 和 cotumns。 在 网 上 搜索 了 解决 方案 之 后 ， 
我 发 现 应 该 将 脚本 geplot/stats/stat bin.py 的 某 行 代码 中 的 “rows” 修 改 为 “index” ， 才 能 
解决 这 个 问题 。 

和 本 章 中 介绍 的 其 他 Python 绘图 包 相 比 ，ggplot 的 缺点 很 明显 ， 因 此 我 推荐 使 用 其 他 绘 












































图 包 来 创建 统计 图 。 但 是 ， 因 为 我 是 R 语言 ggplot2 包 的 疯狂 粉丝 ， 所 以 在 本 市 中 我 要 介 








绍 一 下 ggpLot。 如 果 你 精通 及 语言 并 且 熟 悉 ggplot2， 那 么 马上 就 可 以 使 用 ggplot 创建 统 


计 图 








， 只 要 你 的 需求 在 它 的 功能 范 目 








内 。 
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下 面 的 脚本 geplot. plots.py 演示 了 如 何 通过 ggplot 创建 一 些 基 础 统计 图 ， 使 用 的 数据 就 是 
ggplot 包 内 部 的 数据 : 


#!/usr/bin/env python3 

from ggplot import * 

print(mtcars.head()) 

plt1 = ggplot(aes(x='mpg'), data=mtcars) +\ 
geom histogram(fill-'darkblue', binwidth=2) +\ 
xlim(10, 35) + ylim(0, 10) +\ 
xlab("MPG") + ylab("Frequency") +\ 
ggtitle("Histogram of MPG") +\ 
theme matplotlib() 

print(plt1) 

print(meat.head()) 

plt2 = ggplot(aes(x='date', y='beef'), data=meat) +\ 
geom_line(color='purple', size=1.5, alpha=0.75) +\ 
stat_smooth(colour='blue', size=2.0, span=0.15) +\ 
xlab("Year") + ylab("Head of Cattle Slaughtered") +\ 
ggtitle("Beef Consumption Over Time") +\ 
theme seaborn() 

print(plt2) 

print(diamonds.head()) 

plt3 = ggplot(diamonds, aes(x='carat', y='price', colour='cut')) +\ 
geom_point(alpha=0.5) +\ 
scale_color_gradient(low='#05D9F6', high='#5011D1') +\ 
xlim(0, 6) + ylim(0, 20000) +\ 
xlab("Carat") + ylab("Price") +\ 
ggtitle("Diamond Price by Carat and Cut") +\ 
theme_gray() 

print(plt3) 

ggsave(plt3, "ggplot plots.png") 























这 3 个 统计 图 是 使 用 ggplot 包 中 的 3 个 数据 集 mtcars, meat 和 diamonds 创建 的 。 在 创建 
统计 图 之 前 ， 我 在 屏幕 上 打印 出 了 每 个 数据 集 的 头 部 (最 前 面 的 行 )， 看 一 下 变量 名 和 初 
始 数 据 值 。 


ggplot 函数 将 数据 集 名 称 和 图 形 属性 都 看 作 参 数 ， 以 此 来 设置 图 形 中 各 种 具体 变量 。ggplot 
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表示 
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与 matplotlib 中 的 figure 国 数 很 像 ， 都 是 先 收集 绘图 信息 ， 但 并 不 实际 显示 各 种 图 天 
， 比 如 点 、 线 、 条 形 等 。 下 一 条 绘图 命令 用 于 添加 儿 何 对 象 ， 即 向 图 中 添加 数据 的 图 玫 
。 脚 本 中 的 3 个 添加 几何 对 象 的 命令 分 别 向 图 中 添加 了 直方 图 、 线 型 图 和 散 点 图 。 其 和 
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绘图 命令 向 每 张 统 计 图 中 添加 标题 、 坐 标 轴 范 围 和 标签 ， 以 及 整体 布局 和 颜色 主题 。 
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6-7 显示 了 脚本 创建 的 散 点 图 。 在 ggplot 文档 中 (http://ggplot.yhathg.com/docs/index. 
html) ， 你 可 以 学 习 到 创建 和 设置 统计 图 表 的 更 多 信息 。 
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6-7: ggplot 生成 的 散 点 图 


6.4 seaborn 








seaborn 简化 了 在 Python 中 创建 信息 丰富 的 统计 图 表 的 过 程 。 它 是 在 matplotlib 基础 上 开 
发 的 ， 支 持 numpy 和 pandas 中 的 数据 结构 ， 并 集成 了 scipy 和 statsmodels 中 的 统计 程序 。 


seaborn 可 以 创建 标准 统计 图 ， 包 括 直方 图 、 密 度 图 、 条 形 图 、 箱 线 图 和 散 点 图 。 它 可 
以 对 成 对 变量 之 间 的 相关 性 、 线 性 与 非 线性 回归 模型 以 及 统计 估计 的 不 确定 性 进行 可 视 
化 。 它 可 以 用 来 在 评估 变量 时 检查 变量 之 间 的 关系 ， 并 可 以 建立 统计 图 矩阵 来 显示 复杂 
的 关系 。 它 有 内 置 的 主题 和 调 色 板 ， 可 以 用 来 制作 精美 的 图 表 。 最 后 ， 因 为 它 是 建立 在 
matplotlib 上 的 ， 所 以 你 可 以 使 用 matplotlib 的 命令 来 对 图 形 进行 更 深入 的 定制 。 


下 面 的 脚本 seaborn_plots.py 演示 了 如 何 使 用 seaborn 创建 各 种 统计 图 : 


&!/usr/bin/env python3 

import seaborn as sns 

import numpy as np 

import pandas as pd 

import matplotlib.pyplot as plt 
from pylab import savefig 
sns.set(color codes-True) 

* 直方 图 

x = np.random.normal(size-100) 
sns.distplot(x, bins-20, kde-False, rug-True, label-"Histogram w/o Density") 
sns.axlabel("Value", "Frequency") 





















































plt.title("Histogram of a Random Sample from a Normal Distribution") 
plt.legend() 
# 带 有 回归 直线 的 散 点 图 与 单 变量 直方 图 
mean, cov = [5, 10], [(1, .5), (.5, 1)] 
data - np.random.multivariate normal(mean, cov, 200) 
data frame = pd.DataFrame(data, columns=["x", "y"]) 
sns.jointplot(x="x", y="y", data-data frame, kind="reg")\ 
.set axis labels("x", "y") 
plt.suptitle("Joint Plot of Two Variables with Bivariate and Univariate Graphs") 
# 成 对 变量 之 间 的 散 点 图 与 单 变 量 直 方 图 
iris = sns.load dataset("iris") 
sns.pairplot(iris) 
# 按照 某 几 个 变量 生成 的 箱 线 图 
tips = sns.load dataset("tips") 
sns.factorplot(x="time", y-"total bill", hue="smoker", \ 
col="day", data=tips, kind="box", size=4, aspect=.5) 
# 带 有 bootstrap 置 信 区 间 的 线性 回归 模型 
sns.lmplot(x="total_bill", y="tip", data-tips) 
# 带 有 bootstrap 置 信 区 间 的 逻辑 斯 蒂 回 归 模 型 
seaborn 
tips["big tip"] = (tips.tip / tips.total bill) > .15 
sns.lmplot(x-"total bill", y="big tip", data-tips, logistic-True, y jitter-.03)V 
.set axis labels("Total Bill", "Big Tip") 
plt.title("Logistic Regression of Big Tip vs. Total Bill") 
plt.show() 
savefig("seaborn plots.png") 


第 一 张 统计 图 是 使 用 distplot 函数 显示 的 一 张 直方 图 ， 如 图 6-8 所 示 。 这 个 示例 中 演示 的 


设置 包括 数据 封 箱 个 数 、 是 否 显示 高 斯 核 密度 估计 (kde)、 在 支撑 轴 上 显示 地 毯 图 、 创 建 
坐标 轴 标 签 和 标题 ， 以 及 为 图 例 生 成 的 标签 。 
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图 6-8: seaborn 生成 的 直方 图 ， 数 据 来 自 于 对 正 态 分 布 的 随机 抽样 
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第 二 张 统 计 图 是 使 用 jointplot 函数 显示 两 个 变量 的 一 张 散 点 图 ， 如 图 6-9 所 示 ， 其 中 带 
有 一 条 回归 直线 ， 并 为 每 个 变量 生成 一 张 直方 图 。 























Joint Plot of Two Variables with Bivariate and Univariate Graphs 


pearsonr = 0.48; p = 3.4e-13 














图 6-9: seaborn 生成 的 带 有 回归 直线 的 散 点 图 ， 以 及 两 张 直方 图 


第 三 张 统计 图 是 使 用 pairplot 函数 生成 数据 集中 每 两 个 变量 之 间 的 双 变量 散 点 图 ， 并 为 每 
个 变量 生成 一 张 直方 图 ， 如 图 6-10 所 示 。 
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图 6-10; seaborn 生成 的 芍 尾 花 数据 集中 的 双 变 量 散 点 图 和 单 变量 直方 图 





第 四 张 统计 图 是 使 用 factorplot 函数 生成 的 箱 线 图 ， 表 示 两 个 变量 之 间 的 关系 ， 对 于 第 三 
个 变量 的 每 一 个 值 都 有 一 张 箱 线 图 ， 并 按 另 一 个 变量 分 类 ， 如 图 6-11 所 示 。 
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图 6-11: seaborn 生成 的 账单 总 数 箱 线 图 ， 按 照 星 期 几 、 每 天 中 的 时 间 和 是 否 吸烟 者 进行 分 类 


第 五 张 统计 图 是 使 用 tmplot 函数 生成 的 一 张 散 点 图 和 一 个 线性 回归 模型 ， 并 在 回归 直线 周 
围 显示 了 置信 区 间 ， 如 图 6-12 Bran. 





























total bill 











图 6-12: seaborn 生成 的 散 点 图 和 回归 直线 ， 表 示 小 费 数量 和 账单 总 数 之 间 的 关系 























第 六 张 统计 图 是 使 用 Umplot 函数 为 一 个 二 值 因 变量 生成 的 一 个 逻辑 斯 带 回归 模型 ， 如 图 


6-13 所 示 。 国 数 使 用 y_jitter 参数 使 数据 点 在 1 和 0 处 轻微 振动 ， 这 样 可 以 更 清楚 地 看 出 
数据 点 沿 着 x 轴 的 聚集 情况 。 



































12 Logistic Regression of Big Tip vs. Total Bill 
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图 6-13 : seaborn 生成 的 逻辑 斯 蒂 回 归 曲 线 ， 表 示 大 额 小 费 和 账单 总 额 之 间 的 关系 














这 些 示例 让 你 知道 了 使 用 seaborn 可 以 生成 何 种 类 型 的 统计 图 ， 但 它们 只 是 seaborn 强 
大 功能 的 冰山 一 角 。 你 可 以 参考 seaborn 文档 (http://stanford.edu/~mwaskom/software/ 
seaborn/index.html), ， 了 解 创建 和 设置 统计 图 表 的 更 多 信息 。 
































第 7 章 


描述 性 统计 与 建 模 





本 书 前 面 的 章节 重点 介绍 了 各 种 数据 处 理 技术 ， 使 用 这 些 技术 ， 我 们 可 以 将 原始 数据 转换 
为 可 供 统 计 分 析 的 数据 集 。 本 章 将 把 注意 力 放 在 基本 的 统计 分 析 和 建 模 技术 上 ， 重 点 介绍 
如 何 使 用 统计 图 和 摘要 统计 量 对 数据 集 进行 探索 和 摘要 分 析 ， 以 及 如 何 使 用 多 元 线性 回归 
和 多 辑 斯 蒂 回 归 进 行 回 归 和 分 类 分 析 。 

本 章 并 不 是 对 统计 分 析 技 术 和 pandas 功能 的 综合 运用 ， 相 反 ， 其 目标 是 演示 如 何 使 用 
pandas 和 statsmodels 生成 标准 的 描述 性 统计 量 和 模型 。 


7.1 数据 集 


创建 具有 成 千 上 万 行 数据 的 数据 集 ， 不 需 从 零 开 始 ， 从 互联 网 上 下 载 即 可 。 我 们 要 使 用 的 
第 一 个 数据 集 是 葡萄 酒 质量 数据 集 ， 从 UCI 机 器 学 习 资 料 库 中 可 以 找到 。 第 二 个 数据 集 是 
客户 流失 数据 集 ， 来 自 于 几 个 数据 分 析 博 客 。 


7.1.1 ”葡萄酒 质量 

芽 欧 酒 质量 数据 集 包括 两 个 文件 ， 一 个 是 红 葡 衡 酒 数据 文件 ， 另 一 个 是 白 和 殴 萄 酒 数据 文 
件 ， 白 葡萄 酒 是 著名 的 葡萄 牙 “Vinho Verde” 和 葡萄 酒 的 一 个 变种 。 红 葡萄 酒 文件 中 包含 
1599 条 观测 ， 白 葡萄 酒 文件 中 包含 4898 条 观测 。 两 个 文件 中 都 有 1 个 输出 变量 和 11 个 输 
入 变量 。 输 出 变量 是 酒 的 质量 ， 是 一 个 从 0 ( 低 质量 ) 到 10 (高 质量 ) 的 评分 。 输 入 变量 
是 葡萄 酒 的 物理 化 学 成 分 和 特性 ， 包 括 非 挥发 性 酸 、 挥 发 性 酸 、 柠 檬 酸 、 残 余 糖 分 、 氧 化 
物 、 游 离 二 氧化 硫 、 总 二 氧化 硫 、 密 度 、pH 值 、 硫 酸 盐 和 酒精 含量 。 


这 两 个 数据 集 可 以 通过 以 下 的 URL 下 载 : 
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。 £D Agi (http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv ) 
。 KRZNA (http;/archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv ) 


我 们 不 对 这 两 个 数据 集 分 别 进行 分 析 ， 而 是 将 它们 合成 了 一 个 数据 集 。 当 你 将 红 葡萄 酒 数 
据 和 白 葡 萄 酒 数据 合成 一 个 文件 后 ， 结 果 数 据 集 中 应 该 包括 一 个 标题 行 和 6497 条 观测 。 
男 外 ， 还 应 该 再 添加 一 列 ， 用 来 区 分 这 行 数据 是 红 葡 萄 酒 还 是 白 葡 衡 酒 的 数据 。 我 们 要 使 
用 的 数据 集 如 图 7-1 所 示 请 注意 左 侧 的 行 号 和 第 A 列 中 新 加 的 “type” 变 量 )。 



















































































































































eee [Ù winequality-both.csv 
DanHaxoDess o lA SMD Be 
|| @ Home | Layout | Tables | Charts | Smarta: m 一 - - " q^ de 
san mat Cois Themes 
B . [Em > [Catibri Body) Normal Bad o = d (a faa. ER 
Pato (Qm. |B) U = = Ls E Delete Format Themes Aa 
^ — [se 
A E er chm] Rn Yn p smi mer] JR G SS, POE EL Hei E | FU Aaa paa V LMIE 
Etype _| fixed acidity volatile acidity citric acid residual sugar chlorides free sulfur dioxide total sulfur dioxide density pH sulphates alcohol quality 
2 red 74 0.7 0 19 0.076 11 34 0.9978 3.51 0.56 9.4 5 
3 red 78 0.88 0 2.6 0.098 25 67 0.9968 32 0.68 9.8 5 
4 |red 78 0.76 0.04 23 0.092 15 54 0.997 3.26 0.65 9.8 5 
5 |red 112 0.28 0.56 19 0.075 17 60 0.998 3.16 0.58 9.8 6 
6 red 74 0.7 0 19 0.076 11 34 0.9978 3.51 0.56 94 5 
7 |red 74 0.66 0 18 0.075 13 40 0.9978 3.51 0.56 9.4 5 
8 red 79 0.6 0.06 16 0.069 15 59 0.9964 3.3 0.46 94 5 
9 lred 73 0.65 0 12 0.065 15 21 0.9946 3.39 0.47 10 7 
_10 |red 78 0.58 0.02 2 0.073 9 18 0.9968 3.36 0.57 9.5 7 
11 |red 75 0.5 0.36 6.1 0.071 17 102 0.9978 3.35 0.8 10.5 5 
6489 white 6.8 0.22 0.36 1.2 0.052 38 127 0.9933 3.04 0.54 9.2 5 
6490 white 49 0.235 0.27 11.75 0.03 34 118 0.9954 3.07 0.5 9.4 6 
6491 white 6.1 0.34 0.29 22 0.036 25 100 0.98938 3.06 0.44 118 6 
6492 | white 5.7 0.21 0.32 0.9 0.038 38 121 0.99074 3.24 0.46 10.6 6 
6493 white 65 0.23 0.38 13 0.032 29 112 0.99298 3.29 0.54 97 5 
6494 white 6.2 0.21 0.29 1.6 0.039 24 92 0.99114 3.27 0.5 11.2 6 
6495 white 6.6 0.32 0.36 8 0.047 57 168 0.9949 3.15 0.46 9.6 5 
6496 white 6.5 0.24 0.19 12 0.041 30 111 0.99254 2.99 0.46 9.4 6 
6497 white 5.5 0.29 0.3 11 0.022 20 110 0.98869 3.34 0.38 12.8 7 
6498 white 6 0.21 0.38 0.8 0.02 22 98 0.98941 3.26 0.32 118 6 
6499 
6500 
= winequality-both csv 
Normal View m Sum=0 - | A 




















7-1: 将 红 葡萄 酒 数据 和 白 葡 萄 酒 数据 连接 后 的 数据 集 ， 新 增 一 列 type， 表 示 这 行 数 据 来 自 于 哪 
个 数据 集 


7.1.2 客户 流失 


2t n oa yee de NS 司 现 有 的 和 曾经 的 
客户 。 这 个 文件 有 1 个 输出 变量 和 20 个 输入 变量 。 输 出 变量 Churn? 是 一 个 布尔 型 变量 
(dde. 表示 在 数据 收集 的 时 候 ， 客 户 是 否 已 经 流失 (是 否 还 是 电信 公司 的 客户 )。 


输入 变量 是 客户 的 电话 计划 和 通话 行为 的 特征 ,包括 状态 、 账 户 时 间 、 区 号 、 电 话 号 码 、 
是 否 有 国际 通话 计划 、 是 否 有 语音 信箱 、 语 音信 箱 iin 白天 通话 时 长 、 白 天 通话 
次 数 、 白 天 通话 费用 、 傍 晚 通话 时 长 、 傍 晚 通 话 次 数 、 傍 晚 通 话费 用 、 夜 间 通话 时 长 、 
夜间 通话 次 数 、 夜 间 通 话费 用 、 国 际 通 话 时 长 、 国 际 通话 次 数 、 国 际 通话 费用 和 客户 服 
务 通话 次 数 。 


这 个 数据 集 可 以 在 Churn (https://raw. githubusercontent.com/EricChiang/churn/master/data/ 
churn.csv) 下 载 。 
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客户 流失 数据 集 如 图 7-2 所 示 。 
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2 | 128 415 3824657 no ves 25 2651| 110 4507 1974 99) 1678 — 2447 1101 10 3 27 1 False. 
3 Jon 107 4153717191 no ves el es m ma sees] ans] tees! ome am aes 337 3 37 1 False. 
4 v 137 — 415358192 no no 0 2444 1M| 4138 122 110 103 1626 10 732 122 5 329 0 False. 
5 Jon 84 408 375-9999 yes mo 0 — 2994 n — 509 619 88 526 1969 59 — 886 66 7178 2 False. 
6 [ox 75 415 330-6626 yes no o 1667| 113) 2834 1483 122| 1261|) 1869 121 841 101 3273 3 False. 
Z |a 118 510 391-8027 yes mo 0 2234 98 3798 22006 101 1875 2039 118 918 63 6 17 O False. 
8 MA 121 5103559993 no ves 24 282 88 3709 3485| 108 2982 2126 n8 957 75 7 203 3 False. 
9 [mo 147) 4153299001 yes mo 9 — 18 79 2669 1031 94 876 2118 96 — 953 71 6 192 0 False. 
30 |i 117) 4083354719 no mo 0 — 1845 97 313) — 3516 80 2989 — 2158 9 — 9n 87 4 — 235 1 False. 
3i w 141 415 3308173 yes ves 37 — 2586 84 as m iu 1887 — 3264 57 1468 — 112 s 3.02 0 False. 
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3326 |wv 159 — 4153771164 no no O0 1698 114 2887 1977 105| 168 1937 a o 8m 116 a an 1 False. 
3327 |on 78 4083688555 no mo o 1934 99 — 3288 — 1169 88 994 2433. 109 10395 93 4 — 25 2 False. 
3328 |on 96 415 476812 no no 0 1066 128 1812 2848 87 2421 — 1789 92 805 149 7 am 1 False. 
3329 sc. 79 — 415 3483830 no no 0 1347 98 29 1897 68. 1612 2314 18 9% 118 5 349 2 False. 
3330 |az 192/415 4144276 no ves 36 — 1562 m 1555 255 126 1832 2791 83 — 1256 99 5 267 2 False. 
3331 Ww 68 — 4153703271 no mo 0 2311 57 3929 — 1534 55 1304 1913 1233) 88i 96 4259 3 False. 
3332 |n 28 5103288230 no mo 0 1808) 109 3074 2888 58| 2455 — 1919 91. — 886 14i 6 — 38 2 False. 
3333 |cr 184 —— $10 364638 yes no 0 238 105 3635 1596 34 1357 1392 19 — 626 5 10 — 135 2 False. 
3334 |TN 74 — 415 4004344 no ves 25 2344 113 3985 — 2659 a 26 214 7/ 1085 — 137 4 37 0 False. 
3335 
33: 
churnesv | E z 
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7-2: 客户 流失 数据 集 的 头 部 和 尾部 


SHE 一 HH 一， 


7.2 ai 


7.2.1. 描述 性 统计 
下 面 先 来 分 析 葡 萄 酒 质量 数据 集 。 


唯一 值 以 及 和 这 个 叭 


质量 





quality.py， 然 后 输入 以 下 代码 : 


\D ANDUBWN 请 


[EY 
© 


wine 
wine. 


Sp 
UAWODP 


# RH 





Bee 
ona 


import 


import 
import 
import 
import 


#!/usr/bin/env python3 
numpy as np 
import pandas as pd 
seaborn as sns 
matplotlib.pyplot as plt 
statsmodels.api as sm 
statsmodels.formula.api as smf 

from statsmodels.formula.api import ols, glm 


# ECOLE E A $lpandasZidtisst 








En 


首先 ， 
一 值 对 应 的 观测 数量 。 要 完成 这 个 任务 ， 需 要 创建 一 个 新 脚本 wine 


计算 出 每 列 的 总 体 描述 性 统计 量 、 质 量 列 中 的 


= pd.read csv('winequality-both.csv', sep=',', header=0) 
columns = wine.columns.str.replace(' ', '_') 


print(wine.head()) 
# RAAH 


print(wine.describe()) 
8 唯一 值 

print(sorted(wine.quality.unique())) 
# 计算 值 的 频率 


print(wine.quality.value counts()) 





fg import 语句 之 后 ， 要 做 的 第 


述 性 统计 量 


一 件 事 就 是 使 用 pandas 的 read_csv 方 法 将 文本 文件 
winequality-both.csv 读 入 一 个 pandas 数据 框 。 附 加 参数 表示 域 分 隔 符 为 逗号 ， 第 一 行为 列 














标题 。 有 些 列 标题 中 包含 空格 (例如; fixed acidity) ， 所 以 在 下 面 一 行 代码 中 要 使 用 下 划 
线 标 换 空格 。 然 后 ， 使 用 head 国 数 检查 一 下 标题 行 和 前 5 行 数 据 ， 确 保 数据 被 正确 加 载 。 


第 14 行 代 码 使 用 pandas 的 describe 函数 打印 出 数据 集中 每 个 数值 型 变量 的 摘要 统计 量 。 
这 些 统计 量 包括 总 数 、 均 值 、 标 准 差 、 最 小 值 、 第 25 个 百 分 位 数 、 中 位 数 、 第 75 个 百 分 
位 数 和 最 大 值 。 例 如 ， 质 量 评分 中 有 6497 个 观测 ， 评 分 范围 从 3 到 9， 平均 质量 评分 为 
5.8， 标 准 差 为 0.87。 


下 面 一 行 代码 识别 出 质量 列 中 的 唯一 
一 值 是 3、4、5、6、7、8 和 9。 


最 终 ， 本 市 最 后 一 行 代码 计算 出 质量 列 中 每 个 唯一 值 在 数据 集中 出 现 的 次 数 ， 并 把 它们 以 
降序 打印 到 屏幕 上 。 输 出 显示 ， 有 2836 个 观测 的 质量 评分 为 6，2138 个 观测 的 质量 评分 
为 5，1079 个 观测 的 质量 评分 为 7，216 个 观测 的 质量 评分 为 4，193 个 观测 的 质量 评分 为 
8, 30 个 观测 的 质量 评分 为 3，5 个 观测 的 质量 评分 为 9。 


7.2.2 分 组 、 直 方 图 与 1 检验 


前 面 计算 出 的 统计 量 是 针对 整个 数据 集 的 ， 既 包括 红 葡萄 酒 数据 也 包括 白 葡萄 酒 数据 。 下 
面 我 们 分 别 分 析 红 和 葡 衡 酒 数据 和 白 葡 衡 酒 数据 ， 看 看 统计 量 是 否 会 保持 不 变 : 


# 按照 葡萄 酒 类 型 显示 质量 的 描述 性 统计 量 
print(wine.groupby('type')[['quality']].describe().unstack('type')) 
# 按照 葡萄 酒 类 型 显示 质量 的 特定 分 位 数值 
print(wine.groupby('type')[['quality']].quantile([0.25, 0.75]).unstack('type')) 
# 按照 葡萄 酒 类 型 查看 质量 分 布 
red wine = wine.loc[wine['type']--'red', 'quality'] 
white wine = wine. loc[wine['type']=='white', 'quality'] 
sns.set style("dark") 
print(sns.distplot(red wine, V 

norm hist-True, kde-False, color="red", label-"Red wine")) 
print(sns.distplot(white wine, V 

norm hist-True, kde-False, color="white", Label="White wine")) 
sns.axlabel("Quality Score", "Density") 
plt.title("Distribution of Quality by Wine Type") 
plt.legend() 
plt.show() 
# des SI S 19 FA 8 ES t et ae TT] 
print(wine.groupby(['type'])[['quality']].agg(['std'])) 
tstat, pvalue, df = sm.stats.ttest_ind(red_wine, white_wine) 
print('tstat: %.3f pvalue: %.4f' % (tstat, pvalue)) 


ASHI — fr 49373 BET ETT EH ST i dP 0 8) dH ESET ae groupby 函数 使 用 type 
列 中 的 两 个 值 将 数据 分 为 两 组 。 方 括号 可 以 生成 一 个 列表 ， 列 表 中 的 元 素 是 用 来 生成 输 
出 的 列 。 在 本 例 中 ， 只 对 质量 列 应 用 describe 国 数 。 这 些 命令 的 结果 就 是 生成 一 列 统计 
量 ， 来 自 红 葡 欧 酒 数据 的 计算 结果 和 白 和 葡萄 条 数据 的 计算 结果 是 相互 垂直 地 堆 和 登 在 一 起 
AY, unstack 函数 将 结果 重新 排列 ， 这 样 红 和 葡 衡 酒 和 白 葡 欧 酒 的 统计 量 就 会 显示 在 并 排 的 
两 列 中 。 
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， 并 以 升序 打印 在 屏幕 上 。 输 出 显示 质量 列 中 的 唯 
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下 一 行 代码 和 它 前 面 的 代码 非常 相似 ， 但 不 是 使 用 describe 函数 计算 一 些 描述 性 统计 量 ， 














而 是 使 用 quantile 函数 对 质量 列 计算 第 25 百 分 位 数 和 第 75 百 分 位 数 。 
接 下 来 ， 使 用 seaborn 创建 一 幅 统计 图 ， 其 中 有 两 个 直方 图 ， 一 个 表示 红 和 葡萄 酒 ， 另 一 个 


FoR A AAA, BE) 7-3 所 示 。 
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图 7-3: 表示 两 种 类 型 葡萄 酒 评分 分 布 的 密度 直方 图 


红 条 表示 红 葡 萄 酒 ， 白 条 表示 白 和 葡萄酒 。 因 为 白 葡萄 酒 数据 比 红 葡 欧 漂 多 (AWA 
4898 条 数据 ， 红 葡萄 订 有 1599 条 数据 ) ， 所 以 图 中 显示 密度 分 布 ， 不 显示 频率 分 布 。 从 这 
个 统计 图 可 以 看 出 ， 两 种 葡萄 酒 的 评分 都 近似 正 态 分 布 。 与 原始 数据 的 摘要 统计 量 相 比 ， 











直方 图 更 容易 看 出 两 种 葡萄 酒 的 质量 评分 的 分 布 。 





























最 后 ， 进 行 一 下 1 检验 ， 判 断 红 葡 萄 酒 和 白 葡 萄 酒 的 平均 评分 是 否 有 区 别 。 这 上段 代码 演示 
了 如 何 使 用 groupby 和 agg 图 数 来 为 数据 集中 的 分 组 计算 一 系列 统计 量 。 在 本 例 中 ， 我 们 
想 知道 红 葡 萄 酒 和 白 葡萄 酒 评分 的 标准 差 是 否 相同 ， 所 以 在 1 检验 中 可 以 使 用 合并 方差 。1 
检验 统计 量 为 -9.69, p 值 为 0.00， 这 说 明白 葡萄 酒 的 平均 质量 评分 在 统计 意义 上 大 于 红 

















和 葡萄酒 的 平均 质量 评分 。 

















7.2.3 成 对 变量 之 间 的 关系 和 相关 性 














看 已 经 检查 了 输出 变量 ， 下 
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间 的 相关 性 ， 并 为 一 些 输入 变量 创建 带 有 回归 直线 的 散 点 图 : 








和 简单 研究 一 下 输入 变量 。 让 我 们 计算 一 下 输入 变量 两 两 之 
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corr 函数 可 以 计算 


seaborn 的 pairplot 函数 可 以 创建 一 个 统计 





图 7-4 中 的 统计 图 
红 葡萄 酒 ， 白 条 和 白 点 表示 白 葡萄 酒 。 
这 样 更 容易 看 出 数据 在 何 处 集中 。 





# 计算 所 有 变量 的 相关 和 矩阵 

print(wine.corr()) 

# 从 红 葡 萄 酒 和 白 葡 萄 酒 的 数据 中 取出 一 个 "小 "样本 来 进行 绘 区 

def take sample(data frame, replace-False, n-200): 
return data frame.loc[np.random.choice(data frame.index, V 
replace-replace, size-n)] 

reds sample = take sample(wine.loc[wine['type']--'red', :]) 

whites sample = take sample(wine.loc[wine['type']--'white', :]) 

wine sample - pd.concat([reds sample, whites sample]) 

wine['in sample'] = np.where(wine.index.isin(wine sample.index), 1.,0.) 

print(pd.crosstab(wine.in sample, wine.type, margins-True)) 

# 查看 成 对 变量 之 间 的 关系 

sns.set style("dark") 

g = sns.pairplot(wine sample, kind-'reg', plot kws-("ci": False,\ 

"x jitter": 0.25, "y jitter": 0.25), hue='type', diag_kind='hist',\ 

diag kws-("bins": 10, "alpha": 1.0}, palette=dict(red="red", white="white"),\ 

markers-["o", "s"], vars-['quality', 'alcohol', 'residual sugar']) 

print(g) 

plt.suptitle('Histograms and Scatter Plots of Quality, Alcohol, and Residual\ 

Sugar', fontsize-14, horizontalalignment-'center', verticalalignment='top',\ 

x-0.5, y=0.999) 

plt.show() 




















































































































数据 集中 所 有 变量 两 两 之 间 的 线性 相关 性 。 根 据 相 关系 数 的 符号 ， 从 
输出 中 可 以 知道 酒精 含量 、 硫 酸 盐 、pH 值 、 游 离 二 氧化 硫 和 森 榜 酸 这 些 指标 与 质量 是 下 
相关 的 ， 相 反 ， 非 挥发 性 酸 、 挥 发 性 酸 、 残 余 糖 分 、 
与 质量 是 负 相 关 的 。 


数据 集中 有 6000 多 个 点 ， 所 以 如 果 将 它们 都 画 在 统计 图 中 ， 就 很 难 分 辨 出 清楚 的 点 。 为 
解决 这 个 问题 ， 我 们 定义 了 一 个 函数 take_sample， 用 来 抽取 在 统计 图 中 使 用 的 样本 点 。 
这 个 函数 使 用 pandas 数据 框 索引 和 numpy 的 random. choice 函数 随机 选 
我 们 使 用 这 个 函数 对 红 葡 萄 酒 和 白 葡萄 酒 分 别 进行 抽样 ， 并 将 抽样 所 得 的 两 个 数据 框 连接 
成 一 个 数据 框 。 然 后 ， 在 wine 数据 框 中 创建 一 个 新 列 in_sample， 并 使 用 numpy 的 where 
国 数 和 pandas 的 isin 函数 对 这 个 新 列 进行 填充 ， 填 充 的 
样 数据 的 索引 值 中 分 别 设 为 1 和 0。 最 后 ， 我 们 使 用 pandas 的 crosstab 函数 来 确 
sample 列 中 包含 400 个 1 (200 条 红 葡 萄 酒 数据 和 200 条 白 葡萄 酒 数据 ) 和 6097 个 0。 


毛 化 物 、 总 二 氧化 硫 和 密度 这 些 指标 





择 一 个 行 的 子 集 。 


直 根 据 此 行 的 索引 值 是 否 在 抽 


认 in. 
























































图 矩阵 。 主 对 角 线 上 的 图 以 直方 图 或 密度 图 的 
形式 显示 了 每 个 变量 的 单 变量 分 布 ， 对 角 线 之 外 的 图 以 散 点 图 的 形式 显示 了 每 两 个 变量 之 
间 的 双 变 量 分 布 ， 散 点 图 中 可 以 有 回归 直线 ， 也 可 以 没有 。 


显示 了 和 葡萄酒 质量 、 酒 精 含 量 和 残余 糖分 之 间 的 关系 。 红 条 和 红 点 表示 
因为 质量 评分 都 是 整数 ， 所 以 我 加 上 了 一 点 振动 ， 
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图 7-4: 质量 、 酒 精 含量 和 残余 糖分 这 3 个 变量 两 两 之 间 的 散 点 图 、 回 归 直 线 和 直方 图 ， 按 葡萄酒 类 


型 分 类 








从 这 些 统计 图 可 以 看 出 ， 对 于 红 和 葡萄 酒 和 白 葡萄 酒 来 说 ,酒精 含量 的 均值 和 标准 差 是 大 致 
相同 的 ， 但 是 ， 白 葡 欧 酒 残余 糖分 的 均值 和 标准 差 却 大 于 红 葡 欧 笨 残余 糖分 的 均值 和 标准 
差 。 从 回归 直线 可 以 看 出 ， 对 于 两 种 类 型 的 葡萄 酒 ， 笨 精 含量 增加 时 ， 质 量 评分 也 随 之 提 
高 ， 相 反 ， 残 余 糖 分 增加 时 ， 质 量 评分 则 随 之 降低 。 这 两 个 变量 对 白 和 葡萄 酒 的 影响 都 要 大 











于 对 红 和 葡萄 酒 的 影响 。 



































7.2.4 使 用 最 小 二 乘 估计 进行 线性 回归 


相关 系数 和 两 两 变量 之 间 的 统计 图 有 助 于 对 两 个 变量 之 间 的 关系 进行 量化 和 可 视 化 ， 但 是 





它们 不 能 测量 出 每 个 自 变量 在 其 他 
这 个 问题 。 


线性 回归 模型 如 下 : 




















自 变量 不 变 时 与 因 变 量 之 间 的 关系 。 线 性 回归 可 以 解决 
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yi~ Np”), 
。 = Pot PxXat pxXnt +B Xp 
对 于 i= 1,2,…,n 个 观测 和 p 个 自 变量 。 


这 个 模型 表示 观测 y, 服从 均值 为 4 方差 为 o 的 正 态 分 布 ( 高 斯 分 布 )， 其 中 依赖 于 自 变 
量 , c 为 一 个 常数 。 也 就 是 说 ,给 定 了 自 变量 的 值 之 后 ， 我 们 就 可 以 得 到 一 个 具体 的 质量 
评分 ， 但 在 另 一 天 ， 给 定 同样 的 自 变 量 值 ， 我 们 可 能 会 得 到 一 个 和 前 面 不 同 的 质量 评分 。 
但 是 ， 经 过 很 多 天 自 变 量 取 同样 的 值 (也 就 是 一 个 很 长 的 周期 )， 质 量 评分 会 落 在 jw 土 o 这 
个 范围 内 。 

理解 了 线性 回归 模型 后 ， 下 面 让 我 们 使 用 statsmodet 包 来 进行 线性 回归 : 


my formula = 'quality ~ alcohol + chlorides + citric acid + densityX 
+ fixed acidity + free sulfur dioxide + pH + residual sugar + sulphates\ 
+ total sulfur dioxide + volatile acidity' 
























































lm = ols(my formula, data-wine).fit() 





## 或 者 ,也 可 以 使 用 广义 线性 模型 (glm) 语 法 进行 线性 回归 


## lm = glm(my_formula, data=wine, family=sm.families.Gaussian()).fit() 











print(lm.summary()) 

print("\nQuantities you can extract from the result:\n%s" % dir(lm)) 
print("\nCoefficients:\n%s" % lm.params) 

print("\nCoefficient Std Errors:\n%s" % lm.bse) 

print("\nAdj. R-squared:\n%.2f" % lm.rsquared_adj) 
print("\nF-statistic: %.1f P-value: %.2f" % (lm.fvalue, lm.f pvalue)) 
print("\nNumber of obs: %d Number of fitted values: %d" % (lm.nobs,V 
len(lm.fittedvalues))) 


第 一 行 代码 将 一 个 字符 串 赋 给 变量 my_founula。 这 个 字符 串 中 包含 的 是 类 似 R 语言 语法 的 
回归 公式 定义 。 波 浪 线 (~) 左 侧 的 变量 quality 是 因 变 量 ， 波 浪 线 右 侧 的 变量 是 自 变量 。 


第 二 行 代码 使 用 公式 和 数据 拟 合 一 个 普通 最 小 二 乘 回 归 模 型 ， 并 将 结果 赋 给 变量 tn。 为 了 
演示 另外 一 种 拟 合 方法 ， 下 一 行 代 码 (注释 中 的 代码 ) 使 用 广义 线性 模型 (gun) 的 语法 
代替 普通 最 小 二 乘 语法 ， 拟 合同 样 的 模型 。 

下 面 7 行 代码 向 屏幕 上 打印 模型 结果 。 第 一 行 向 屏幕 上 打印 结果 的 摘要 信息 。 这 些 摘 要 信 
息 非 常 重要 ， 因 为 它 包含 了 模型 系数 、 系 数 的 标准 差 和 置信 区 间 、 修 正方 、F 统 计量 等 
模型 详细 信息 。 


下 一 行 代码 打印 出 一 个 列表 ， 其 中 包含 从 模型 对 象 tn 中 提取 出 的 所 有 数值 信息 ， 检 查 了 
这 个 列表 之 后 ， 我 希望 提取 出 模型 系数 、 系 数 的 标准 差 、 修 正方 、F 统 计量 和 它 的 p 
值 ， 以 及 模型 拟 合 值 。 


接 下 来 的 4 行 代 码 提取 出 了 这 些 值 。Lm.params 以 一 个 序列 的 形式 返回 模型 系数 ， 这 样 你 
可 以 通过 定位 或 名 称 提 取出 单个 的 系数 。 例 如 ， 要 提取 酒精 含量 的 系数 0.267， 你 可 以 使 
用 lm.params[1] 或 tm.params['aLcohot']。 同 样 ，Lm.bse 以 序列 的 形式 返回 模型 系数 的 标 
UEZ, lm.rsquared adj 返回 修正 R 方 ，lm.fvalue 和 lm.f. pvalue 分别 返 回 五 统计 量 和 它 
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HJ p fü, Ha, lm.fittedvalues 返回 拟 合 值 。 我 没有 给 出 所 有 的 拟 合 值 ， 而 是 在 观测 总 数 
lm.nobs 后 面 显示 拟 合 值 的 数量 ， 以 确认 拟 合 值 与 观测 具有 同样 的 数量 。 输 出 结果 如 图 7-5 
所 示 。 
































e 2. bash 
OLS Regression Results 


quality — R-squarei 
Adj. R-squared: 
Least Squares — F-statistic: 
Sat, 28 May 6 rob (F-statistic): 

20:12  Log-Likelihood: 
No. Observations: AIC: 
Df Residuals: BIC: 
Df Model: 
Covariance Type 


P>ltl [95.0% Conf. Int.] 


Intercept 

alcohol 

chlorides 

citric_acid 

density 

fixed_acidity y 

free. sulfur. dioxide .001 .000 0 


pH 3 .09 .00 0.616 
residual. sugar 0 0.005 9 0.054 
sulphates 0.076 0.917 
total sulfur dioxide .0025 .000 =| 0 -0. -0.002 
volatile acidity -1.3279 .077 = 62 0 -1.48l -1.176 


ibu: 5 Durbi 
Prob(Omnibus): 0.000 Jarque-Bera (JB): 
Skew: -0.006 = Prob(JB): 
5 Co No. 














图 7-5: 具有 11 个 特征 的 葡萄 酒 质量 多 元 线性 回归 


7.2.5 ”系数 解释 

如 果 你 想 使 用 这 个 模型 弄 清 楚 因 变量 (葡萄 酒 质量 ) 和 自 变 量 (11 个 和 葡萄酒 特 性 ) 之 间 的 
关系 ， 就 应 该 解释 一 下 模型 系数 的 意义 。 在 这 个 模型 中 ， 某 个 自 变 量 系 数 的 意义 是 ， 在 其 
他 自 变量 保持 不 变 的 情况 下 ， 这 个 自 变量 发 生 1 个 单位 的 变化 时 ， 导 致 葡萄 酒 质量 评分 发 
生 的 平均 变化 。 例 如 ， 酒 精 含量 系数 的 含义 就 是 ， 从 平均 意义 上 来 说 ， 如 果 两 种 葡萄 酒 其 
他 自 变 量 的 值 都 相同 ， 那 么 酒精 含量 高 1 个 单位 的 葡萄 酒 的 质量 评分 就 要 比 另 一 种 葡萄 酒 
的 质量 评分 高 出 0.27 分 。 
并 不 是 所 有 的 系数 都 需要 解释 。 例 如， 截 距 系 数 的 意义 是 当 所 有 自 变量 的 值 都 为 0 时 的 期 
望 评分 。 因 为 没有 任何 一 种 葡萄 酒 的 各 种 成 分 都 为 0， 所 以 截 距 系数 没有 具体 意义 。 


7.2.6 变量 标准 化 

关于 这 个 模型 ， 还 需要 注意 的 一 点 是 ， 普 通 最 小 二 乘 回 归 是 通过 使 残 差 平方 和 最 小 化 来 
估计 未 知 的 8 参数 值 的 ， 这 里 的 残 差 是 指 自 变量 观测 值 与 拟 合 值 之 间 的 差别 。 因 为 残 差 
大 小 是 依赖 于 自 变 量 的 测量 单位 的 ， 所 以 如 果 自 变量 的 测量 单位 相差 很 大 的 话 ， 那 么 将 
自 变 量 标准 化 后 ， 就 可 以 更 容易 对 模型 进行 解释 了 。 对 自 变 量 进行 标准 化 的 方法 是 ， 先 
从 自 变量 的 每 个 观测 值 中 减 去 均值 ， 然 后 再 除 以 这 个 自 变量 的 标准 差 。 自 变量 标准 化 完 
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成 以 后 ， 它 的 均值 为 0， 标准 差 为 11。 
使 用 wine.describe()， 可 以 看 到 握 化 物 的 范围 是 从 0.009 到 0.661， 而 总 二 氧化 硫 的 范围 
是 从 6.0 到 440.0。 其 余 变量 的 最 小 值 与 最 大 值 之 间 的 区 别 也 大 致 如 此 。 因 为 各 个 自 变 量 
值 的 变化 范围 相差 非常 悬殊 ， 所 以 非常 应 该 对 自 变 量 进 行 标准 化 ， 看 看 这 样 做 了 之 后 ， 能 
否 更 容易 对 结果 进行 解释 。 
pandas 在 数据 框 中 对 变量 进行 标准 化 非常 容易 。 你 可 以 对 一 个 观测 写 一 个 变换 公式 ， 
pandas 可 以 把 这 个 公式 扩展 到 行 与 列 中 ， 来 标准 化 所 有 变量 。 以 下 各 行 代 码 使 用 标准 化 后 
的 自 变量 创建 了 一 个 新 数据 框 wine standardized. 

# 创建 一 个 名 为 dependent_variable 的 序列 来 保存 质量 数据 


dependent variable = wine['quality'] 
































# 创建 一 个 名 为 independent variables 的 数据 框 

# 来 保存 初始 的 葡萄 酒 数据 集中 除 quality、type 和 in_sample 之 外 的 所 有 变量 
independent variables = wine[wine.columns.difference(['quality', 'type',\ 
'in sample'])] 








# 对 自 变量 进行 标准 化 

# 对 每 个 变量 ,在 每 个 观测 中 减 去 变量 的 均值 

# 并 且 使 用 结果 除 以 变量 的 标准 差 

independent_variabtes standardized = (independent variables -\ 
independent variables.mean()) / independent variables.std() 


# 将 因 变 量 quality 作 为 一 ee 

# 创建 一 个 带 有 标准 化 自 变量 的 

# 新 数据 集 

wine standardized = pd.concat([dependent variable, independent variablesY 
standardized], axis=1) 


完成 了 带 有 标准 化 自 变 量 的 数据 集 之 后 ， 让 我 们 重新 进行 线性 回归 ， 并 查看 一 下 摘要 统计 
(LEI 7-6) : 


lm standardized = ols(my formula, data-wine standardized).fit() 
print(lm standardized.summary()) 


自 变量 标准 化 会 改变 我 们 对 模型 系数 的 解释 。 现 在 每 个 自 变 量 系数 的 含义 是 ， 不 同 的 葡萄 
酒 在 其 他 自 变 量 均 相 同 的 情况 下 ， 某 个 自 变 量 相差 1 个 标准 差 ， 会 使 葡萄 酒 的 质量 评分 平 
均 相 差 多 少 个 标准 差 。 举 个 例子 ， 酒 精 含量 系数 的 意义 是 ， 从 平均 意义 上 说 ， 如 果 两 种 区 
萄 酒 其 他 自 变 量 的 值 都 相同 ， 那 么 酒精 含量 高 1 个 标准 差 的 葡萄 酒 的 质量 评分 就 要 比 另 一 
种 葡萄 酒 的 质量 评分 高 出 0.32 个 标准 差 。 


还 是 通过 wine.describe() 函数 ， 我 们 可 以 看 到 酒精 含量 的 均值 和 标准 差 是 10.5 和 1.2， 质 

















































































































注 1: ££ Data Analysis Using Regression and Multilevel/Hierarchical Models (Cambridge University Press, 2007, 
p.56) 中 ，Gelman and Hill 建议 在 数据 集中 既 有 连续 型 自 变量 又 有 二 值 型 自 变量 的 情况 下 ， 用 两 倍 标 
准 差 去 除 ， 而 不 是 用 一 倍 标准 差 。 这 样 的 话 ， 标 准 化 自 变 量 一 个 单位 的 变化 就 对 应 于 均值 上 下 一 个 标 
准 差 的 变化 。 因 为 葡萄 酒 质量 数据 集中 不 包含 二 值 自 变量 ， 所 以 我 通过 除 以 一 倍 标准 差 将 自 变 量 标准 
化 为 z-scores。 
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量 评分 的 均值 和 标准 差 是 5.8 和 0.9。 因 此 ， 从 平均 意义 上 说 ， 如 果 两 种 殴 萄 酒 其 他 的 自 变 

















TIME, ABA 


Exi: 

















值 的 葡萄 酒 的 质量 评分 大 0.32 个 标准 差 。 





量 为 11.7 (10.5+1.2) 的 葡萄 酒 的 质量 评分 























就 会 比 酒精 含量 为 均 





OLS Regression Results 


quality 

0OLS 

Least Squares 

Sat, 28 May 2016 

10:09:36 

No. Observations: 6497 AIC: 

Df Residuals: BIC: 

Df Model: 

Covariance Type 


R-squarei 


statistic: 


Intercept 

alcohol 

chlorides 
citric_acid 

density 
fixed_acidity 

free. sulfur. dioxide 
pH 

residual. sugar 
sulphates 

total sulfur dioxide 
volatile acidity 


ibu: 5 
Prob(Omnibus): 9.000 
Skew: -0.006 Prob(JB): 

5 Co No. 


Durbi 





Adj. R-squared: 


2. bash 


(F-statistic): 
Log-Likelihood: 


[95.0% Conf. Tnt.] 


P»Itl 


0.000 
0.146 
0.168 
0.000 
0.000 
0.000 
0.000 
0.000 


Jarque-Bera (JB): 











& 7-6: 具有 11 个 特征 的 葡萄 酒 质量 多 元 线性 回归 一 一 在 回归 之 前 ， 


当 解释 变量 被 标准 
e a. 
评分 均值 应 该 是 5.8， 标 准 差 为 0.009。 


























种 葡 欧 酒 所 有 的 成 分 都 取 均 值 的 时 候 ， 


预测 











7.2.7 








葡萄 酒 成 分 的 一 个 新 的 观测 ， 
过 选择 现 有 数据 集 的 前 10 个 观测 ， 
如 何 对 新 数据 做 出 预测 。 

需要 说 明 的 是 ， 仅 出 于 方便 和 演示 的 
了 这 个 示例 之 外 ， 你 应 该 使 用 未 用 于 | 
预测 。 记 住 了 这 一 点 之 后 ， 下 另 


















































的 自 变 量 


= wine.ix[wine.index.isin(range(10)), V 




















含 模型 中 使 用 





# 新 观测 中 只 


independent variables.columns] 











# 基于 新 观测 | 
y_predicted = 














自 变 量 标准 化 同样 会 改变 我 们 对 截 距 的 解释 。 
所 有 自 变 量 取 值 为 均值 时 因 变 量 的 均值 。 


i 创建 一 组 





在 我 
它 的 质量 





在 某 些 情况 下 ， 我 们 需要 使 用 没有 用 来 拟 合 模型 的 新 数据 进 和 
并 需要 根据 这 些 成 分 预测 这 种 和 葡萄酒 的 质量 评分 
并 根据 它们 的 葡萄 酒 成 分 








663) 











创建 10 个 "新 "观测 


中 的 和 葡萄酒 特性 预测 质量 评分 


lm.predict(new_observations) 














新 ”观测 ， 并 使 用 


化 后 


了 预测 。 


} 预 测 质量 记 


变量 被 标准 化 为 z-scores 








截 距 表示 的 就 是 当 
就 是 当 一 





会 收 到 关于 
。 让 我 们 通 
Ef 分 ， 来 演示 一 下 


例如 ， 你 











目的 ， 我 们 才 使 用 这 些 已 经 用 于 拟 合 模型 的 数据 。 除 
以 合 模型 的 数据 来 评价 模型 ， 
它们 来 预测 质量 评分 : 





并 用 新 的 观测 数据 进行 
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# 将 预测 值 保留 两 位 小 数 并 打印 到 屏幕 上 


y_predicted_rounded = [round(score, 2) for score in y predicted] 


print(y. predicted rounded) 





























变量 y predicted 中 包含 着 10 个 预测 值 。 为 了 使 输出 更 简单 易 懂 ， 我 将 预测 值 保留 两 位 
小 数 。 在 这 个 示例 中 ， 如 果 我 们 使 用 的 是 真正 的 新 观测 ， 就 可 以 使 用 这 些 预 测 值 来 评价 模 











型 。 无 论 如 何 ， 我 们 得 到 了 一 些 预 测 值 


7.3 客户 流失 























， 可 以 用 来 评估 或 做 些 别 的 事情 。 





下 面 来 分 析 客 户 流失 数 据 集 。 首 先 ， 将 数据 读 入 一 个 数据 框 ， 然 后 格式 化 列 标题 ， 为 数据 





框 churn 创建 一 个 新 的 数值 型 二 值 变量 











， 并 检查 数据 框 中 前 面 儿 行 数据 。 为 了 完成 这 些 操 











作 ， 需 要 创建 一 个 新 脚本 customer_churn.py， 并 输入 以 下 各 行 代码 : 


#!/usr/bin/env python3 

import numpy as np 

import pandas as pd 

import seaborn as sns 

import matplotlib.pyplot as plt 
import statsmodels.api as sm 
import statsmodels.formula.api as 


smf 


churn = pd.read csv('churn.csv', sep=',', header=0) 
churn.columns = [heading.lower() for heading in V 


churn.columns.str.replace(' ', '_ 


').str.replace("\'", "").str.strip('?')] 


churn['churn01'] = np.where(churn['churn'] == 'True.', 1., 0.) 


print(churn.head()) 


import 语句 之 后 的 第 一 行 代码 将 数据 读 入 数据 框 churn。 下 一 行 代码 两 次 使 用 replace ER 
数 将 列 标题 中 的 空格 替换 成 下 划 线 ， 并 删除 府 入 的 单 引 号 。 请 注意 第 二 个 replace 函数 ， 


其 中 第 一 个 参数 的 两 个 双 引 号 中 间 是 一 





个 反 斜 线 加 一 个 单 引 号 ， 逗号 后 面 的 第 二 个 参数 就 











是 一 对 双 引 号 。 这 行 代码 还 使 用 strip 





国 数 除 去 了 列 标题 Churn? 末尾 的 问号 。 最 后 ， 这 行 


代码 使 用 列表 生成 式 将 所 有 列 标题 转换 为 小 写 。 
下 一 行 代 码 创建 一 个 新 列 churn691， 并 使 用 numpy 的 where 函数 根据 churn 这 一 列 中 的 值 用 





1 或 0 来 填充 它 。churn 这 一 列 中 的 值 不 
那么 churn91 中 的 值 就 是 1， 如 果 churn 
































是 True 就 是 False， 所 以 如 果 churn 中 的 值 是 True, 
中 的 值 是 False, [SZ churno1 中 的 值 就 是 0。 








最 后 一 行 代码 使 用 head 函数 显示 标题 行 和 前 5 个 数据 行 ， 这 样 可 以 检查 一 下 数据 加 载 以 及 


列 标题 的 格式 化 是 否 正 确 。 
在 将 数据 加 载 到 数据 框 中 之 后 ， 可 以 通 











过 计算 流失 客户 和 未 流失 客户 的 描述 性 统计 量 ， 来 


看 看 这 两 组 客户 有 什么 区 别 。 下 面 的 代码 按照 churn 这 一 列 中 的 值 将 数据 分 成 了 两 组 : 已 
流失 的 客户 和 未 流失 的 客户 。 然 后 为 每 个 分 组 中 的 一 些 特定 的 列 计算 3 个 统计 量 : 总数、 











均值 和 标准 差 ; 
# 为 分 组 数据 计算 描述 性 统计 量 




















print(churn.groupby(['churn'])[['day_charge', 'eve charge', 'night_charge',\ 
'intl charge', 'account length', 'custserv calls']].agg(['count', 'mean',\ 


'std']) 
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下 面 的 代码 演示 了 如 何 为 不 同 的 变量 计算 不 同类 型 的 多 个 统计 量 。 这 行 代码 为 4 个 变量 计 
算 均值 和 标准 差 ， 为 2 个 变量 计算 总 数 、 最 小 值 和 最 大 值 。 我 们 还 是 按照 churn 列 分 组 ， 
所 以 代码 分 别 为 流失 客户 和 未 流失 客户 计算 这 些 统计 量 : 
# 为 不 同 的 变量 计算 不 同 的 统计 量 
print(churn.groupby(['churn']).agg({'day_charge' : ['mean', 'std'], 

'eve charge' : ['mean', 'std'], 

'night charge' : ['mean', 'std'], 

'intl charge' : ['mean', 'std'], 

'account length' : ['count', 'min', 'max'], 

'custserv calls' : ['count', 'min', 'max']})) 


下 一 段 代 码 对 客户 服务 通话 次 数 这 部 分 数据 进行 了 摘要 分 析 ， 先 按照 一 个 新 变量 total_ 
charges 中 的 值 使 用 等 宽 分 箱 法 将 数据 分 成 5 个 组 ， 然 后 为 每 个 分 组 计算 5 个 统计 量 : 总 
数 、 最 小 值 、 均 值 、 最 大 值 和 标准 差 。 为 了 完成 这 些 操作 ， 第 一 行 代码 创建 一 个 新 变量 
total_charges， 表 示 白 天 、 傍 晚 、 夜 间 和 国际 通话 费用 的 总 和 。 下 一 行 代码 使 用 cut 函数 
按照 等 宽 分 箱 法 将 total charges 分 成 5 组。 然后 定义 一 个 函数 get_stats， 为 每 个 分 组 返 
回 一 个 统计 量 字典 。 下 一 行 代 码 按照 $ 个 total charges 分 组 将 客户 服务 通话 次 数 也 分 成 
同样 的 5 组 。 最 后 ， 在 分 组 数据 上 应 用 get. stats 国 数 ， 为 5 个 分 组 计算 统计 量 : 
# 创建 totaL_charges 
# 将 其 分 为 5 组 ,并 为 每 一 组 计算 统计 量 
churn['total charges'] = churn['day charge'] +churn['eve_charge'] +\ 
churn['night charge'] * churn['intl charge'] 
factor cut - pd.cut(churn.total charges, 5, precision-2) 
def get stats(group): 
return {'min' : group.min(), 'max' : group.max(), 
'count' : group.count(), 'mean' : group.mean(), 
'std' : group.std()) 
grouped = churn.custserv calls.groupby(factor cut) 
print(grouped.apply(get stats).unstack()) 


和 前 一 段 代码 相似 ， 下 一 段 代码 也 是 用 5 个 统计 量 对 客户 服务 通话 数据 进行 了 摘要 分 析 。 
但 是 ， 这 段 代 码 使 用 qcut 函数 通过 等 深 分 箱 法 (按照 分 位 数 进行 划分 ) 将 account_length 
分 成 了 4 组 ， 而 不 是 使 用 等 宽 分 箱 法 对 数据 进行 的 分 组 : 

# 将 account_Length 按 照 分 位 数 进行 分 组 

# 并 为 每 个 分 位 数 分 组 计算 统计 量 

factor qcut = pd.qcut(churn.account length, [0., 0.25, 0.5, 0.75, 1.]) 


grouped = churn.custserv calls.groupby(factor qcut) 
print(grouped.apply(get stats).unstack()) 


通过 分 位 数 对 account length 进行 划分 ， 可 以 保证 每 个 分 组 中 包含 数目 大 致 相同 的 观测 。 
前 一 段 代码 中 通过 等 宽 分 箱 法 得 到 的 每 个 分 组 中 包含 的 观测 数目 是 不 一 样 的 。qcut 函数 使 
用 一 个 整数 或 一 个 分 位 数 数组 来 设 定 分 位 数 的 数量 ， 所 以 你 可 以 使 用 整数 4 来 代替 [0.， 
0.25, 0.5, 0.75, 1.] 设 定 4 等 分 ， 或 使 用 10 来 设 定 10 等 分 。 

下 面 一 段 代 码 演示 了 如 何 使 用 pandas 的 get_dummies 函数 来 创建 二 值 指 标 变量 ， 并 将 这 
些 变量 添加 进 数 据 框 。 前 两 行 代码 为 intl plan 列 和 vmail plan 列 创建 二 值 指标 变量 ， 并 
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使 用 原来 的 变量 名 作为 新 列 的 前 级 。 下 一 行使 用 join 命令 将 churn 列 和 新 的 二 值 指标 列 
合并 ， 并 将 结果 赋 给 一 个 新 的 文本 框 churn_with_dummies。 这 个 新 文本 框 有 5 列 : churn, 
intl plan no, intl plan yes, vmail plan no 和 vmail_plan_yes, 

# 为 intL_pLan 和 vmait_pLan 创 建 二 值 (虚拟 ) 指 标 变量 

# 并 将 它们 与 新 数据 框 中 的 churn 列 连接 起 来 

intl dummies = pd.get dummies(churn['intl plan'], prefix-'intl plan') 

vmail dummies = pd.get dummies(churn['vmail plan'], prefix-'vmail plan') 

churn with dummies - churn[['churn']].join([intl dummies, vmail dummies]) 

print(churn with dummies.head()) 


下 面 这 段 代 码 演示 了 如 何 将 一 列 按照 四 分 位 数 进行 划分 ， 为 每 个 四 分 位 数 创 建 二 值 指标 变 
量 ， 并 将 新 列 添加 到 原来 的 数据 框 中 。qcut 函数 将 total charges 列 按照 四 分 位 数 进行 划 
分 ， 并 使 用 qcut_names 中 的 名 称 对 每 个 四 分 位 数 进行 标记 。get_dummies 函数 为 四 分 位 数 
创建 4 个 二 值 指标 变量 ， 并 使 用 total charges 作为 新 列 的 前 级 。 最 终结 果 为 4 个 新 的 虚 
拟 变 量 : total charges 1st quartile, total charges 2nd quartile, total charges 3rd 
quartile, total charges 4th quartile, join ERZWp [ix 4 个 变量 追加 到 数据 框 churn 中 。 

# 将 total_charges 按 照 分 位 数 分 组 ,为 每 个 分 位 数 分 组 创建 一 个 二 值 指标 变量 

# 并 将 它们 加 入 到 churn 数 据 框 中 

qcut names = ['1st quartile', '2nd quartile', '3rd quartile', '4th quartile'] 

total charges quartiles - pd.qcut(churn.total charges, 4, labels-qcut names) 

dummies - pd.get dummies(total charges quartiles, prefix-'total charges') 


churn with dummies = churn.join(dummies) 
print(churn with dummies.head()) 


最 后 一 段 代 码 创 建 了 3 个 数据 透视 表 。 第 一 行 代码 在 对 total charges 列 按照 流失 情况 和 
客户 服务 通话 次 数 进行 透视 转换 (或 行列 分 组 ) 之 后 ， 计 算 每 组 的 均值 。 结 果 是 一 长 列 数 
值 ， 表 示 每 个 流失 情况 和 客户 服务 通话 次 数组 合 的 平均 总 费用 。 第 二 行 代码 表示 对 结果 重 
新 格式 化 ， 使 用 流失 情况 作为 行 ， 客 户 服务 通话 次 数 作为 列 。 最 后 ， 第 三 行 代码 使 用 客户 
服务 通话 次 数 作 为 行 ， 流 失 情 况 作为 列 ， 演 示 了 指定 要 计算 的 统计 量 、 处 理 缺 失 值 和 是 否 
显示 边际 值 的 方法 : 

# 创建 透视 表 

print(churn.pivot table(['total charges'], index=['churn', 'custserv calls'])) 

print(churn.pivot table(['total charges'], index=['churn'],\ 

columns=[ 'custserv_calls'])) 


print(churn.pivot_table(['total_charges'], index=['custserv_calls'],\ 
columns=['churn'], aggfunc='mean', fill_value='NaN', margins=True )) 


7.3.1 逻辑 斯 蒂 回 归 

在 这 个 数据 集中 ， 因 变量 是 一 个 二 值 变 量 ， 表 示 客 户 是 否 已 经 流失 并 不 再 是 公司 客户 。 线 
性 回归 不 适合 这 种 情况 ， 因 为 它 可 能 会 生成 小 于 0 或 大 于 1 的 预测 结果 ， 这 在 概率 上 是 没 
有 意义 的 。 因 为 因 变 量 是 一 个 二 值 变量 ， 所 以 需要 将 预测 值 限制 在 0 和 1 之 间 。 逻 辑 斯 蒂 
回归 可 以 满足 这 个 要 求 。 

逻辑 斯 蒂 回 归 模 型 如 下 所 示 。 


e Pro;= 1)= logit (fy +B 1X tpat +B, Xip) 
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对 于 i= 1,2,…, nn 个 观测 和 p 个 输入 变量 
等 价 于 : 


。 Pi(y-1)-p, 
* logit(p) = (Both xi +n + TO) 
逻辑 斯 蒂 回 归 通 过 使 用 逻辑 函数 (或 称 逻 辑 斯 蒂 国 数 ) 的 反 国 数 估计 概率 的 方式 来 测量 自 
变量 和 二 值 型 因 变 量 之 间 的 关系 。 这 个 国 数 可 以 将 连续 值 转换 为 0 和 1 之 间 的 值 ， 这 是 个 
必要 条 件 ， 因 为 预测 值 表示 概率 ， 而 概率 必须 在 0 和 1 之 间 。 这 样 ， 逻 辑 斯 带 回归 预测 的 
就 是 某 种 结果 的 概率 ， 比 如 客户 流失 概率 。 
逻辑 斯 蒂 回 归 通 过 一 种 能 够 实现 极 大 似 然 估计 的 迭 代 算 法 来 估计 未 知 的 参数 值 。 
逻辑 斯 蒂 回 归 的 语法 与 线性 回归 有 一 点 区 别 。 对 于 逻辑 斯 蒂 回 归 ， 需 要 分 别 设置 因 变 量 和 
自 变量 ， 而 不 是 将 它们 写 在 一 个 公式 中 : 

dependent variable = churn['churn01'] 

independent variables = churn[['account length', 'custserv_calls',\ 

'total charges']] 


independent variables with constant = sm.add constant(independent variables,V 
prepend-True) 


qul 



































ME 





























logit model = sm.Logit(dependent variable, independent variables with constant)V 
.fit() 


print(logit model.summary()) 
print("\nQuantities you can extract from the result:\n%s" % dir(logit model)) 
print("\nCoefficients:\n%s" % logit model.params) 
print("\nCoefficient Std Errors:\n%s" % logit model.bse) 
第 一 行 代码 创建 一 个 变量 dependent varible 并 赋 给 它 churno1 列 中 的 一 系列 值 。 
同样 ， 第 二 行 代码 设 定 了 用 作 自 变量 的 3 列 ， 并 将 它们 赋 给 变量 independent variables, 
然后 ， 我 们 使 用 statsmodels 的 add constant 函数 向 输入 变量 中 加 入 一 列 1。 


下 一 行 代码 拟 合 逻 辑 斯 蒂 模 型 ， 并 将 拟 合 结果 赋 给 变量 logit_model。 
































最 后 4 行 代码 向 屏幕 上 打印 出 模型 中 具体 的 结果 。 第 一 行 代码 向 屏幕 上 打印 模型 的 摘要 信 
息 。 这 个 摘要 信息 非常 重要 ， 因 为 其 中 包含 了 模型 系数 、 系 数 标 准 差 和 置信 区 间 、 伪 R 方 
等 模型 详细 信息 。 


下 一 行 代码 打印 出 一 个 列表 ， 其 中 包含 从 模型 对 象 logit_model 中 提取 出 的 所 有 数值 信息 。 
检查 了 这 个 列表 之 后 ， 提 取出 模型 系数 和 它们 的 标准 差 。 

接 下 来 的 2 行 代码 提取 出 了 这 些 值 。logit_model.params 以 一 个 序列 的 形式 返回 模型 系数 ， 
这 样 便 可 以 通过 定位 或 名 称 提取 出 单个 模型 系数 。 同 样 ，logit_model.bse 以 一 个 序列 的 形 
式 返 回 系 数 标 准 差 。 输 出 结果 如 图 7-7 所 示 。 




















e ] 2. bash 


Optimization terminated successfully. 
Current function value: 0.363480 


Iterations 7 


Logit Df Residuals: 
MLE Df Model: 
, 28 May 2016 Pseudo R-squ.: 
13:20:39  Log-Likelihood: 


True  LL-Null: 
LLR p-valu 


-7.2205 " -18.309 
account length 0.0012 A 0.927 
custserv_calls 0.4443 « 12.129 
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7.8.0 系数 解释 

对 逻辑 斯 蒂 回 归 系 数 的 解释 不 像 线 性 回归 那么 直观 ， 因 为 逻辑 斯 蒂 函 数 的 反 函 数 是 条 上 曲 
线 ， 这 说 明 自 变量 一 个 单位 的 变化 所 造成 的 因 变量 的 变化 不 是 一 个 常数 。 
因为 逻辑 斯 蒂 函 数 的 反 函 数 是 一 条 曲线 ， 所 以 必须 选择 使 用 哪个 函数 值 来 评价 自 变量 对 成 功 
概率 的 影响 。 和 线性 回归 一 样 ， 截 距 系 数 的 意义 是 当 所 有 自 变 量 为 0 时 成 功 的 概率 。 有 些 时 
候 0 是 没有 意义 的 ， 所 以 另外 一 种 方式 是 当 自 变 量 都 取 均 值 时 ， 看 看 函数 的 值 有 何 意义 : 


























































































































def inverse logit(model value): 
from math import exp 
return (1.0 / (1.0 + exp(-model value))) 


at means = float(logit model.params[0]) + V 
float(logit model.params[1])*float(churn['account length'].mean()) + \ 
float(logit model.params[2])*float(churn['custserv calls'].mean()) + \ 
float(logit model.params[3])*float(churn['total charges'].mean()) 


print("Probability of churn at mean values: %.2f" % inverse logit(at means)) 


的 连续 预测 值 转换 为 0 和 1 之 











EZ 








第 一 段 代 码 定义 了 一 个 函数 inverse_logit， 将 线性 模型 得 
间 的 概率 值 。 
第 二 段 代 码 计 算出 当 所 有 自 变 量 取 均值 时 观测 的 预测 值 。4 个 Logit_model.params[…] ff 
是 模型 系数 ，3 个 churn['…'].mean() 分 别 是 账户 时 间 、 客 户 服 务 通话 次 数 和 总 费用 的 均 
值 。 给 定 了 模型 系数 和 各 变量 的 均值 ， 方 程 变 为 -7.2+(0.001*101.1)+(0.444*1.6)+(0.073*59.5)， 
所 以 变量 at_means 的 值 为 -2.068。 

最 后 一 行 代 码 在 屏幕 上 打印 出 逻辑 斯 蒂 函 数 的 反 函 数 在 at_means 处 的 值 ， 保 留 两 位 小 数 。 
一 2.068 处 的 反 函 数值 为 0.112， 所 以 当 账 户 时 间 、 客 户 服务 通话 次 数 和 总 费用 均 取 均值 时 ， 
客户 流失 的 概率 就 是 11.2%。 

























































































描述 性 统计 与 建 模 | 207 

















同样 ， 要 计算 某 个 自 变量 一 个 单位 的 变化 造成 的 因 变 量 的 变化 ， 可 以 通过 计算 当 某 个 自 变 
量 从 均值 发 生 一 个 单位 的 变化 时 ， 成 功 概率 发 生 了 多 大 的 变化 。 


例如 ， 下 面 来 计算 一 下 当 客 户 服务 通话 次 数 在 均值 的 基础 上 发 生 一 个 单位 的 变化 时 ， 对 客 
户 流失 概率 造成 的 影响 : 


cust serv mean = float(logit model.params[0]) + V 
float(logit model.params[1])*float(churn['account length'].mean()) + \ 
float(logit model.params[2])*float(churn['custserv calls'].mean()) + \ 
float(logit model.params[3])*float(churn['total charges'].mean()) 









































cust serv mean minus one = float(logit model.params[0]) + V 
float(logit model.params[1])*float(churn['account length'].mean()) + \ 
float(logit model.params[2])*float(churn['custserv calls'].mean()-1.0) + \ 
float(logit model.params[3])*float(churn['total charges'].mean()) 





print("Probability of churn when account length changes by 1: %.2f" % V 
(inverse logit(cust serv mean) - inverse logit(cust serv mean minus one))) 


第 一 段 代 码 与 计算 at means 的 代码 相同 。 第 二 段 代 码 也 与 其 基本 相同 ， 区 别 在 于 将 客户 服 
务 通话 次 数 的 均值 减 去 了 1。 
最 后 一 行 代码 打印 出 了 两 个 逻辑 斯 带 函 数 反 函数 值 的 差 ， 其 中 一 个 是 所 有 自 变量 为 均值 时 
的 反 函 数值 ， 另 一 个 是 两 个 自 变 量 为 均值 ， 客 户 服 务 通话 次 数 为 均值 减 1 时 的 反 函 数值 。 
在 这 个 示例 中 ，cust_serv_mean 的 值 与 at_means 相同 ， 都 是 -2.068。cust_serv_mean_ 
minus one 的 值 是 —2.512, —2.068 的 反 函 数值 减 去 -2.512 的 反 国 数值 的 结果 是 0.0372， 所 
以 在 均值 附近 减少 一 次 客户 服务 通话 就 对 应 着 客户 流失 概率 提高 3.7 个 百分点 。 


7.8.3 预测 
与 前 面 的 葡萄 酒 质量 预测 一 样 ， 你 也 可 以 使 用 这 个 拟 合 模型 来 对 “新 ”观测 进行 预测 : 


# 在 churn 数 据 集 中 

# 使 用 前 16 个 观测 创建 16 个 “新 "观测 

new observations = churn.ix[churn.index.isin(range(10)),V 

independent variables.columns] 

new observations with constant - sm.add constant(new observations, prepend-True) 

























































































# 基于 新 观测 的 账户 特性 
# 预测 客户 流失 可 能 性 


y predicted = logit model.predict(new observations with constant) 








# 将 预测 结果 保留 两 位 小 数 并 打印 到 屏幕 上 
y. predicted rounded = [round(score, 2) for score in y predicted] 
print(y predicted rounded) 


同样 ， 变 量 y predicted 中 包含 着 10 FMI. Ay T [idc BE (Rin E i. BT RUN EC GR 
留 两 位 小 数 。 现 在 我 们 得 到 了 可 用 的 预测 值 ， 如 果 使 用 的 是 真正 的 新 观测 ， 那 么 就 可 以 使 
用 这 些 预 测 值 来 评价 模型 了 。 











第 8 和 章 


按 计划 目 动 运行 脚本 





本 书 到 目前 为 止 ， 介 绍 了 很 多 基本 技术 。 在 讨论 了 Python 基础 知识 之 后 ， 我 们 对 文本 文 
fF. CSV 文件 、Excel 文件 和 数据 库 中 的 数据 进行 了 处 理 ， 并 应 用 这 些 新 知识 解决 了 3 种 
常见 的 商业 分 析 问 题 。 在 这 些 示例 中 ， 命 令 行 中 的 脚本 都 是 通过 手动 运行 的 。 就 像 这 样 : 


python my python script.py input file.txt output file.csv 


这 是 一 种 最 常见 的 运行 脚本 的 方法 ， 也 是 完全 可 以 接受 的 ， 但 是 ， 当 你 需要 定期 运行 脚本 
时 ， 应 该 怎么 办 呢 ? 如 果 没 有 别 的 运行 脚本 的 方法 ， 那 么 就 需要 你 时 刻 记 住 要 在 某 个 时 间 
使 用 命令 行 运行 脚本 。 显 然 ， 这 不 是 定期 运行 脚本 的 最 优 方法 。 在 这 种 情况 下 ， 就 需要 另 
外 一 种 方法 ， 来 按 计 划 定 期 地 运行 脚本 。 

在 Windows 系统 和 macOS 系统 中 ， 都 有 可 以 定期 运行 脚本 和 其 他 可 执行 文件 的 程序 。 微 
软 称 这 个 程序 为 Task Scheduler (任务 计划 程序 ) ， 在 Unix 系统 和 macos 系统 中 ， 这 样 的 
程序 称 为 cron (定时 任务 ， 你 可 能 听 说 过 crontab files 或 cron jobs)。 本 书 的 重点 在 于 如 何 
在 Windows 系统 中 运行 脚本 ， 所 以 下 一 市 将 演示 在 Windows 系统 中 使 用 任务 计划 程序 安 
排 脚 本 定期 运行 的 方法 。 同 时 ， 你 也 应 该 了 解 一 下 如 何在 macOS 系统 和 Unix 系统 中 安排 
定时 任务 ， 所 以 在 下 面 的 内 容 中 还 会 演示 在 这 两 种 操作 系统 中 使 用 cron 来 安排 Python BJ 
本 定期 运行 的 方法 。 


8.1 任务 计划 程序 (Windows 系 统 ) 


为 了 演示 在 Windows 系统 中 使 用 任务 计划 程序 安排 脚本 定期 运行 的 方法 ， 首 先 需要 选择 一 个 
Python 脚本 。 为 简单 起 见 ， 可 以 使 用 第 5 章 中 最 后 一 个 应 用 程序 的 脚本 3parse_text_file py。 在 
这 个 应 用 程序 中 ， 用 前 面 提 到 的 脚本 来 解析 MySQL 错误 日 志文 件 。 这 个 应 用 程序 非常 适 
合 我 们 的 要 求 ， 因 为 错误 日 志 正 是 需要 定期 分 析 的 一 种 文件 。 例 如 ， 你 可 能 需要 每 天 、 每 
















































































209 


周 或 每 月 分 析 一 次 数据 库 错 误 日 志 ， 来 型 清 楚 某 种 错误 发 生 的 频率 ， 以 便 有 针对 性 地 进行 
维护 和 修复 工作 。 最 后 ， 尽 管 这 个 示例 演示 的 是 定期 运行 Python 脚本 的 方法 ， 但 请 注意 ， 
你 完全 可 以 使 用 任务 计划 程序 安排 其 他 类 型 的 脚本 和 可 执行 文件 定期 运行 。 


首先 ， 确 认 一 下 你 在 第 5 章 最 后 一 个 应 用 程序 中 创建 的 两 个 文件 (也 就 是 3parse_text_file.py 
和 mysql. server error log.txt) 都 保存 在 桌面 上 了 。 如 果 你 已 经 将 这 两 个 文件 保存 在 了 桌面 
上 ， 那 么 下 面 的 指导 步骤 和 屏幕 截图 中 的 路 径 就 非常 容易 理解 了 。 当 然 ， 你 可 以 将 文件 保 
存在 另 一 个 位 置 ， 然 后 在 任务 计划 程序 中 修改 文件 路 径 ， 使 它们 指向 你 在 计算 机 中 保存 文 
件 的 地 方 。 


要 打开 任务 计划 程序 ， 先 单 击 开始 按钮 ， 找 到 控制 面板 一 系统 和 安全 一 管理 工具 ， 然 后 双 
击 任务 计划 程序 (参见 图 8-1) 。 如 果 系 统 提示 需要 输入 管理 员 密码 或 进行 确认 ， 就 输入 管 
理 员 密 码 或 进行 确认 。 
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GIRE- Shortcut Tools Administrative Tools - 4 
Home Share View Manage EN 7] 
个 l > Control Panel » System and Security > Administrative Tools v | © | | Search Administrative Tools — D 
NIE Name v Date modified Typ: Size 
Bil Desktop 2KB 
Jý Download 2KB 
38] Recent places 2KB 
KB 
i This PC KB 
fk Desktop 2KB 
F) Document ts 2KB 
Jj. Downloads 2KB 
BD Music 8 2KB 
©) Pictures & Performance Monitor 8/21/2013 11:532 PM — Shortcut 2KB 
Bi Videos li Print Management 8/21/2013 11:44PM — Shortcut 2K8 
ila Windows (C) ( Resource Monitor 8 11:52PM_ Shortcut KB 
GR TO-AssetManagem — (Bj, Services 8 11:54PM — Shortcut KB 
[E System Configuration 8 11:53PM Shortcut 2kB 
in Network E System Information. 2013 11:53PM — Shortcut 2KB 
(E) Task Scheduler 8/21/2013 11:55PM — Shortcut 2KB 
[ÉP Windows Firewall with Advanced Security — 8/21/2013 1145 PM — Shortcut 2KB 
ry Diagnostic 8/2 11:52PM — Shortcut 2KB 
E Wind: Shell (x86) 8 &34AM Shortcut 3KB 
(8 windo Shell ISE (86) 8 1155PM — Shortcut 2KB 
(88 Windows PowerShell ISE 8/21/2013 11:55 PM — Shortcut 2KB 
21items — litem selected 1.10 KB Eg el 




















图 8-1: 管理 工具 窗口 中 高 亮 显示 的 任务 计划 程序 

请 注意 屏幕 上 方 的 文件 路 径 : 控制 面板 一 系统 和 安全 一 管理 工具 。 在 管理 工具 列表 中 ， 任 
务 计划 程序 在 蓝 色 矩形 背景 下 被 高 亮 显 示 出 来 。 

双击 鼠标 之 后 ， 任 务 计 划 程 序 将 被 打开 。 任 务 计划 程序 打开 之 后 ， 屏 幕 如 图 8-2 所 示 。 

请 注意 右上 角 的 可 用 操作 列表 (例如: 连接 到 另 一 台 计 算 机 、 创 建 基本 任务 等 )。 这 些 操 
作 同 样 可 以 使 用 左上 角 的 “操作 ”菜单 来 进行 。 

要 安排 一 项 任务 ， 点 击 左上 角 的 “操作 ”菜单 ， 然 后 点 击 “ 创 建 基本 任务 "， 也 可 以 双击 
右上 角 的 “创建 基本 任务 ”。 通 过 任何 一 种 操作 ， 都 可 以 打开 “创建 基本 任务 向 导 。 




























































































图 8-2. 任务 计划 程序 打开 之 后 的 初始 界面 


通过 填写 向 导 主 窗口 的 名 称 与 描述 域 ， 可 以 命名 并 描述 你 要 创建 的 任务 (参见 图 
为 你 要 创建 一 个 任务 来 运行 Python 脚本 ， 去 定期 解析 错误 日 志文 件 ， 所 以 此 处 将 任务 命名 
为 “Parse Error Log File”， 并 描述 为 : 
to parse an error log file on a monthly basis.", #4 

















8-3), 





E 








"This task schedules a Python script, 3parse, text. file.py, 


完 名 称 与 描述 域 后 ， 点 击 “ 下 一 步 "。 








*e] Create a Basic Task 





Create Basic Task Wizard 











on a monthly basis. 





Use this wizard to quickly schedule a common task. For more advanced options or settings 
Trigger such as multiple task actions or triggers, use the Create Task command in the Actions pane. 
Action Name: parse Error Log File 

SEE Description: | This task schedules a Python script, 3parse_text_file.py, to parse an error log file 









































图 8-3: 创建 基本 任务 的 界面 ， 用 来 命名 与 描述 要 安排 的 任务 
点 击 了 “下 一 步 ” 之 后 ， 任 务 向 导 会 转 到 “触发 器 ”标签 页 (参见 图 8-4)。 在 “触发 器 ” 
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标签 页 中 ， 你 可 以 选择 任务 开始 的 时 间 。 因 为 需要 每 月 运行 一 次 脚本 ， 所 以 选择 “每 月 ” 
单 选 按 钮 ， 然 后 点 击 “ 下 一 步 ”。 





Create Basic Task Wizard ES 
图 | Task Trigger 
Createa Basic Task When do you want thetaskto start? 
IE s 
Monthly 

Action LEON 
Finish (€) Monthly 

© Onetime 


(O When the computer starts 
O When I log on 
(O When a specific event is logged 





c sss ces 




















B 8-4: 任务 触发 器 界面 ， 用 来 设置 任务 开始 的 时 间 


点 击 了 “下 一 步 ” 之 后 ， 任 务 向 导 会 转 到 “每 月 ”标签 页 (参见 图 8-5)。 在 “每 月 ”标签 
页 中 ， 你 可 以 设置 任务 开始 的 时 间 。 因 为 需要 每 月 运行 一 次 脚本 ， 所 以 可 以 选择 当前 月 份 
最 后 一 天 的 上 午 9:00 作为 开始 时 间 。 选 择 “ 跨 时 区 同步 ” 复 选 框 ， 并 选择 一 年 中 的 所 有 月 
f (一 月 、 二 月 、 三 月 ……) 和 每 月 的 最 后 一 天 。 完 成 这 些 选 择 之 后 ， 点 击 “ 下 一 步 ”。 








Create Basic Task Wizard EJ 


*8] Monthly 




















ic Task r 
Create a Basic Tas| Start: [1/30/2014 国 ~ | 9:00:00 AM be V] Synchronize across time zones 
Trigger - 
Months: Panuary, February, March.. — [e] 
Action " — 
:ast 
Finish © Days: k 


O On: X E 





| <Back || Nets || Cancel | 

















图 8-5:“ 每 月 ”界面 ， 用 来 设置 任务 运行 的 时 间 
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点 击 了 “下 一 步 ” 之后， 任务 向 导 会 转 到 “操作 ”标签 页 (参见 图 8-6)。 在 “操作 ”标签 
页 中 ， 你 可 以 选择 想 让 任务 执行 的 操作 。 因 为 需要 任务 去 运行 一 个 Python 脚本 ， 所 以 选择 


“启动 程序 ” 单 选 按钮 ， 然 后 点 击 “ 下 一 步 "。 











Create Basic Task Wizard | x | 
*e] Action 


Create a Basic Task 

TS What action do you want the task to perform? 
Monthly 

(€) Start a program 

oen O Send an e-mail (deprecated) 

O Display a message (deprecated) 


<Back || Net» Cancel 














图 8-6:“ 操 作 ” 界 面 ， 用 来 设置 任务 执行 的 操作 


点 击 了 “下 一 步 ” 之 后 ， 任 务 向 导 会 转 到 “启动 程序 ”标签 页 (参见 图 8-7)。 在 “启动 
程序 ”标签 页 中 ， 你 可 以 设置 要 启动 的 程序 或 脚本 。 使 用 “浏览 ”按钮 可 以 找到 桌面 上 
的 3parse_text_file.py。 另 外 ， 这 个 脚本 还 需要 两 个 命令 行 参数 : 输入 文件 名 mysql_server_ 
error. log.txt 和 输出 文件 名 mysql_errors_countcsv， 可 以 在 “添加 参数 (可 选 )” 文 本 框 中 
填写 这 两 个 参数 。 输 入 了 Python 脚本 路 径 名 和 输入 输出 文件 名 之 后 ， 点 击 “ 下 一 步 ”。 




















Create Basic Task Wizard 
图 | Starta Program 
Create a Basic Task 
Trigger Program/script: 
Monthly : - : 
C:\Users\clinton\Desktop\parse_text_file.py Browse... 
Action 
Add arguments (optional): [mysal server error log 








Finish Start in (optional): [ |] 


(eee) [net | owes 











887: “启动 程序 ”界面 ， 用 来 设置 任务 运行 的 程序 或 脚本 ， 以 及 程序 或 脚本 需要 的 命令 行 参数 
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点 击 了 “下 一 步 ” 之 后 ， 任 务 向 导 会 转 到 “完成 ”标签 页 (参见 图 8-8)。 “完成 ”标签 页 
显示 了 你 在 任务 向 导 中 输入 的 所 有 信息 的 摘要 ， 这 样 你 可 以 在 完成 任务 计划 之 前 检查 一 
下 信息 是 否 正确 。 检 查 项 目 包括 名 称 、 描 述 、 触 发 器 和 操作 域 中 的 信息 ， 确 认 它 们 是 正确 
的 。 当 核实 了 所 有 信息 都 正确 之 后 ， 点 击 “ 完 成 ”。 

















Create Basic Task Wizard 











Create a Basic Task 
Trigger Name: 
Monthly Description: | This task schedules a Python script, parse text file.py, to parse an error log 
i file on a monthly basis. 





Trigger (Monthly; At 9:00 AM on day Last of January, February, March, April, May, Jur 
Action: [Start a program; C:\Users\clinton\Desktop\parse text file.py mysql_server en| 





Open the Properties dialog for this task when | click Finish 
When you click Finish, the new task will be created and added to your Windows schedule. 














<Back || Finish Cancel | 

















图 8-8: 摘要 界面 ， 显 示 所 有 输入 信息 ， 用 来 确认 任务 被 设置 为 执行 你 需要 的 操作 


点 击 “ 完 成 ”之 后 ， 任 务 向 导 会 将 你 的 任务 添加 到 任务 计划 程序 库 中 ， 并 返回 任务 计划 程 
序 主 界面 (参见 图 8-9) 。 要 想 查看 一 下 新 建 的 任务 计划 ， 可 以 点 击 主 界面 左上 角 的 任务 计 
划 程 序 库 。 这 时 ， 在 中 上 窗 格 中 会 显示 你 新 建 的 任务 ， 它 可 能 位 于 其 他 任务 之 间 。 如 果 你 
点 击 了 中 上 窗 格 中 新 任务 的 名 称 ， 将 会 在 中 下 窗 格 中 看 到 任务 相关 信息 的 摘要 标签 页 〈 例 
如 : 常规 、 触 发 器 、 操 作 等 )。 最 后 ， 如 有 果 你 想 编 辑 或 删除 任务 ， 可 以 先 在 中 上 窗 格 中 点 


击 选择 任务 ， 然 后 分 别 点 击 主 界面 右上 角 的 “属性 ”或 “删除 。 









































f 





fit 
Hi 


wx. TNT sz 
"ji 
H 
ł 























图 8-9: 任务 计划 程序 库 界 面 ， 用 来 创建 、 查 看 、 编 辑 和 删除 计划 好 的 任务 
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通过 按 计划 自动 地 定期 运行 Python 脚本 和 其 他 可 执行 文件 ， 你 可 以 消除 忘记 手动 运行 脚本 
的 可 能 。 此 外 ， 相 对 于 手动 运行 脚本 ， 你 可 以 通过 自动 运行 脚本 极 大 地 提高 工作 效率 。 当 
你 的 业务 对 数据 处 理 与 分 析 脚 本 越 来 越 依赖 时 ， 手 动 运行 脚本 的 方式 会 更 加 不 可 行 。 


8.2 cronig (macOS 系 统 和 Unix 系 统 ) 


如 你 所 见 ，Windows 系统 中 提供 了 任务 计划 程序 ， 用 来 使 脚本 和 其 他 可 执行 文件 按 计划 自 
动 定期 运行 。 在 macOS 系统 和 Unix 系统 中 ， 与 之 相似 的 程序 称 为 cron, 


cron 程序 依赖 于 cron 表 文 件 和 cron 任务 来 确定 何 时 运行 特定 的 可 执行 文件 。cron 表 文 件 
是 一 个 纯 文 本 文件 ， 你 可 以 创建 这 个 文件 ， 在 文件 中 列 出 所 有 想 按 计划 自动 运行 的 可 执行 
文件 ， 以 及 每 个 文件 开始 运行 的 具体 时 间 。 一 个 cron 任务 就 是 cron 表 文 件 中 的 一 行 ， 设 
定 了 一 个 要 运行 的 可 执行 文件 (例如: 3parse_text_file.py) 以 及 这 个 文件 开始 运行 的 时 间 
(例如 : 每 月 运行 )。 


cron 表 文 件 中 的 cron 任务 的 具体 语法 一 开始 理解 起 来 会 有 些 困难 。 每 行 中 的 前 S 项 设 
置 了 运行 可 执行 文件 的 频率 。 这 5 项 从 左 到 右 分 别 是 : 分 钟 (0~59)、 小 时 (0-23), X 
(1-31), H (1-12) 和 星期 几 (0~6， 星 期 天 为 0) 。 每 行 中 的 最 后 一 项 设置 了 要 按照 设 定 
频率 运行 的 可 执行 文件 。 


有 若干 种 方法 可 以 设 定 前 5 项 中 的 值 。 如 果 你 想 让 可 执行 文件 在 某 个 项 目的 所 有 可 能 取 值 
时 都 可 以 运行 ， 那 么 就 将 这 个 项 目 设 为 一 个 星 号 (*)。 例 如 ， 如 果 你 想 让 文件 每 天 都 运 
行 ， 那 么 就 将 第 3 个 项 目 设 为 星 号 。 相 反 ， 如 果 你 想 让 文件 在 一 个 具体 的 时 间 运 行 ， 那 么 
就 应 该 将 前 两 项 设置 为 具体 数值 。 例 如 ， 如 果 你 想 让 文件 在 下 午 3:10 开始 运行 ， 那 么 就 应 
该 将 第 一 项 设 为 10， 第 二 项 设 为 15 (下 午 3 时 =15 时 )。 

理解 如 何 设置 cron 任务 的 最 好 方法 是 看 几 个 例子 ， 下 面 的 例子 给 出 了 cron 表 文 件 中 的 3 
个 cron 任务 : 

10 15 * * * /Users/clinton/Desktop/analyze orders.py 


0 6,12,18 * * 1-5 /Users/clinton/Desktop/update database.py 
30 20 * * 6 /Users/clinton/Desktop/delete temp files.sh 























































































































第 一 行 设置 了 analyze. orders.py 应 该 在 每 月 每 日 的 下 午 3:10 运行 。 第 二 行 设置 了 update_ 
database.py 应 该 在 每 月 的 每 个 工作 日 〈 星 期 一 至 星期 五 ) 的 早上 6:00、 中 午 12:00 和 傍晚 
6:00 各 运行 一 次 。 第 三 行 设置 了 delete_temp_files.sh (一 个 Bash BIAS) 应 该 在 每 月 的 每 个 
星期 六 的 晚上 8:30 分 运行 。 

这 3 个 例子 给 出 的 是 一 些 常 用 的 cron 任务 设置 。 但 是 ， 你 可 能 需要 以 一 个 特殊 的 频率 运行 
脚本 。 例 如 ， 你 可 能 需要 在 每 月 的 第 一 个 星期 一 运行 脚本 。 在 你 已 经 确定 了 运行 脚本 的 频 
率 ， 但 还 不 确定 如 何 设置 cron 任务 的 时 候 ， 可 以 在 互联 网 上 搜索 具体 的 语法 (有 人 已 经 
为 你 提供 了 解决 方案 )。 例 如 ， 使 用 “cron job first Monday of month” 进 行 一 次 快速 搜索 ， 
就 能 够 找到 下 面 的 语法 形式 ， 可 以 在 每 月 的 第 一 个 星期 一 的 上 午 11:00 运行 Python 脚本 
every_first_Monday.py: 




















00 11 1-7 * * [ "S(date '+\%a')" = "Mon" ] &&\ 
[Users/clinton/every first monday.py 
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8.2.1 cron 表 文件 : 一 次 性 设置 
我 们 已 经 从 概念 上 理解 了 cron 表 文 件 和 cron 任务 ， 下 面 就 创建 一 个 cron 表 文 件 ， 并 设置 
一 个 cron 任务 ， 定 期 运行 Python 脚本 3parse_text_file.py。 
cron 表 文 件 的 创建 本 质 上 是 一 种 一 次 性 设置 。 创 建 了 cron 表 文 件 之 后 ， 就 不 再 需要 重新 创 
建 了 。 你 可 以 在 已 有 的 cron 表 文 件 之 中 添加 、 修 改 或 删除 cron 任务 ， 来 管理 想 定期 自动 
运行 的 可 执行 文件 。 
要 创建 一 个 新 的 空 cron 表 文 件 ， 打 开 终 端 窗口 ， 输 入 以 下 命令 : 
touch crontab_file.txt 
要 想 加 载 cron 表 文 件 (就 是 让 操作 系统 加 载 cron 表 文 件 并 按 计划 执行 其 中 的 命令 )， 在 命 
令 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 : 


crontab crontab file.txt 





















































































































































最 后 ， 从 创建 crontab_file.txt 的 位 置 删除 它 。 要 完成 这 个 操作 ， 在 命令 行 中 输入 以 下 命令 ， 
然后 按 回 车 键 : 


rm crontab file.txt 


这 样 就 完成 了 一 个 空 的 cron 表 文 件 的 创建 ， 一 次 性 设置 完成 。 图 8-10 中 的 屏幕 截 区 
了 上 面 的 3 种 一 次 性 设置 命令 ,还 有 用 来 编辑 cron 表 文 件 的 crontab -e 命令 。 
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e 1. bash 
clinton-mba:~ clinton$ touch crontab_file.txt 
clinton-mba:~ clinton$ crontab crontab_file.txt 
clinton-mba:~ clinton$ rm crontab_file.txt 
clinton-mba:~ clinton$ crontab -ef 














8-10: 图 中 的 3 条 命令 可 以 在 命令 行 中 使 用 ， 建 立 一 个 空 的 cron 表 文件 。 第 四 条 命令 crontab -e 
打开 新 建 的 cron 表 文件 进行 编辑 


8.2.2 向 cron 表 文件 中 添加 cron 任 务 


现在 向 cron 表 文 件 中 添加 一 项 cron 任务 。 首 先 打开 一 个 cron 表 文 件 进行 编辑 ， 输 入 以 下 
命令 ， 然 后 按 回 车 键 : 

















Crontab -e 





























当 你 执行 了 crontab -e 命令 后 ，cron 表 文 件 会 在 基于 Unix 的 文本 编辑 器 中 打开 ， 这 样 的 





文本 编辑 器 包括 Nano, vi/Vim 或 Emacs。 你 可 以 在 当前 行 中 输入 cron 任务 命令 ， 用 回 车 














键 将 光标 移 到 下 一 个 空 行 ， 然 后 使 用 适当 的 关键 字 序列 (下 面 会 解释 ) 来 保存 修改 和 退出 

















文件 。 




















有 一 种 特殊 情况 ， 如 果 是 用 vi/Vim 打开 了 文件 ， 那 么 你 使 用 的 编辑 器 就 有 两 种 模式 : 命 
令 模 式 和 插入 模式 。 文 件 刚 打 开 时 ， 编 辑 器 处 于 命令 模式 ， 此 时 你 输入 的 按键 为 作用 在 文 














件 上 的 命令 ， 而 不 是 要 输入 文件 中 的 文本 。 要 想 从 命令 模式 切换 到 插入 模式 











(插入 模式 允 





许 你 向 文件 中 输入 文本 )， 需 要 输入 命令 i。 进 入 插入 模式 之 后 ， 你 就 可 以 在 当前 行 中 输入 























cron 任务 命令 ， 用 回 车 键 将 光标 移 到 下 一 个 空 行 ， 然 后 使 用 适当 的 关键 字 序 允 
和 退出 文件 。 











来 保存 修改 











打开 cron 表 文 件 ， 在 当前 行 中 输入 以 下 命令 ， 然 后 按 回 车 键 将 光标 移 至 下 一 个 空 行 (参见 














到 8-11) : 








00 09 28-31 * * [ "S(date -v+1d '+\%d')" = "01" ] 88V 
/Users/clinton/Desktop/3parse_text_file. py 





e 1. emacs 
00 09 28-31 * * [ "$Cdate -v+id '+\%d')" = "01" ] && /Users/clinton/Desktop/parse_text_file.py 











-uu-:---F1 crontab.n8RgQwznX6 All L2 CFundamental)------------------------------------------- 








图 8-11; 输入 cron 表 文 件 中 的 命令 ， 在 每 月 最 后 一 天 上 午 9:00 运行 脚本 3parse text 


_file.py 


这 条 命令 与 之 前 在 Windows 系统 的 任务 计划 程序 中 设置 的 参数 是 一 致 的 ， 都 是 在 每 月 最 后 














一 天 的 上 午 9:00 运行 脚本 。 命 令 左 侧 的 5 项 表示 这 个 任务 应 该 在 满足 方 括号 








FP 条 件 语句 的 


前 提 下 ， 在 每 月 的 28、29、30、31 日 中 某 一 天 的 上 午 9:00 运行 。 方 括号 中 的 语句 检验 的 
是 ， 如 果 将 当前 日 期 加 1， 那么 所 得 的 日 期 是 否 是 01 ( 即 下 个 月 的 第 一 天 )。 这 条 语句 确保 
了 脚本 在 每 月 的 最 后 一 天 运行 ， 不 论 这 一 天 是 2 H28 A. 6 H 30 日 还 是 10 月 31 日 。cron 
程序 会 检查 这 些 频率 参数 和 语句 ， 如 果 语 句 为 真 ，cron 任务 就 会 运行 3parse_text_file.py。 



































每 月 最 后 一 天 的 上 午 9:00， 都 会 运行 这 个 脚本 。 
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请 注意 光标 (一 个 白色 小 长 方形 ) 在 你 输入 的 命令 的 下 一 个 空 行内 。cron 表 文 件 中 可 以 有 
多 个 cron 任务 ， 每 个 任务 占 一 行 ， 但 是 你 必须 在 最 后 一 个 cron 任务 后 面 按 回 车 键 ， 以 使 
cron 任务 行 结束 ， 并 使 光标 位 于 文件 中 的 最 后 一 个 空 行内 。 

既然 你 已 经 在 cron 表 文 件 中 输入 了 一 个 cron 任务 命令 ， 现 在 就 需要 保存 对 文件 的 修改 
并 退出 文件 了 。 根 据 你 使 用 的 编辑 器 ， 输 入 下 列 命令 序列 中 的 一 个 来 保存 修改 并 退出 
cron 表 文 件 : 










































































e Nano: Ctrl+o, Ctrl+x 

e vi/Vim: , W, q 

* Emacs: Ctrl+x, Ctrl+s, Ctrl+x, Ctrl+c 

保存 了 修改 并 且 退 出 了 cron 表 文 件 之 后 ， 查 看 一 下 cron 表 文 件 中 的 内 容 ， 看 看 保存 在 文 
件 中 的 新 建 的 cron 任务 。 要 查看 cron 表 文 件 中 的 内 容 ， 输 入 以 下 命令 ， 然 后 按 回 车 键 
(参见 图 8-12) : 


















































crontab -l 
按 下 回 车 键 之 后 ， 就 可 以 看 到 cron 表 文 件 中 的 内 容 被 打印 到 了 屏幕 上 。 如 屏幕 截图 所 示 ， 


cron 表 文 件 中 包含 了 我 们 的 cron 任务 命令 ， 在 每 月 最 后 一 天 的 上 午 9:00 运行 脚本 3parse_ 
text_file.py. 






































e 1. bash 

clinton-mba:~ clinton$ touch crontab. file.txt 

clinton-mba:~ clinton$ crontab crontab file.txt 

clinton-mba:~ clinton$ rm crontab_file.txt 

clinton-mba:~ clinton$ crontab -e 

crontab: installing new crontab 

clinton-mba:~ clinton$ crontab -1 

00 09 28-31 * * [ "$(date -v+id '+\%d')" = "Q1" ] && /Users/clinton/Desktop/parse. text. file.py 
clinton-mba:~ clinton$ 目 














8-12. 在 终端 窗口 中 使 用 crontab -| 显示 cron 表 文 件 中 的 内 容 


要 编辑 或 删除 一 个 cron 任务 ， 先 输入 crontal -e 打开 cron 表 文 件 。 如 果 你 想 编辑 cron 
任务 ， 对 你 想 修改 的 位 于 某 行 的 cron 任务 进行 修改 即 可 。 如 果 你 想 删 除 cron 任务 ， 删 
除 包含 这 个 任务 的 行 即 可 。 对 于 以 上 两 种 情况 ， 都 要 确认 光标 停留 在 文件 中 的 最 后 一 个 
空 行内 。 然 后 ， 根 据 你 使 用 的 文本 编辑 器 输入 适当 的 按键 序列 ， 保 存 修 改 并 退出 cron 
表 文 件 。 









































尽管 你 在 日 常 工作 中 使 用 Windows， 但 是 知道 如 何 计划 cron 任务 也 是 非常 重要 的 。 因 为 有 
些 时 候 ， 你 可 能 会 需要 计划 一 个 cron 任务 ， 所 以 知道 如 何在 不 同 的 操作 系统 下 实现 自动 工 
作 是 非常 有 用 处 的 。 


本 章 篇 幅 比 其 他 各 章 都 短 ， 但 却 是 本 书 的 一 个 重要 补充 ， 因 为 其 内 容 可 以 使 你 定期 自动 运 
行 所 需 脚 本 。 其 他 各 章 教 会 了 你 扩展 数据 处 理 和 分 析 能 力 的 技术 ， 本 章 则 在 规模 化 和 自动 
化 方面 增强 了 这 些 技术 。 通 过 自动 运行 所 需 脚 本 ， 你 可 以 减少 忘记 运行 脚本 的 概率 ， 并 可 
以 使 用 节省 下 来 的 时 间 去 进行 更 重要 的 工作 。 
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从 这 里 启 航 


这 是 本 书 的 最 后 一 章 ， 到 目前 为 止 ， 书 中 已 经 介绍 了 很 多 知识 和 技术 ， 包 括 Python 基础 知 
识 以 及 分 析 任 意 数量 的 文本 文件 、CSYV 文件 、Excel 文件 和 数据 库 中 数据 的 方法 。 我 们 已 
经 掌握 了 如 何 从 这 些 数据 源 中 选择 特定 的 行 与 列 ， 如 何 聚合 数据 并 计算 基本 统计 量 ， 以 及 
如 何 将 结果 写 入 输出 文件 。 我 们 完成 了 3 个 常见 的 商业 分 析 应 用 ， 这 些 应 用 要 求 我 们 创造 
性 地 且 有 效率 地 使 用 学 过 的 知识 和 技术 。 我 们 还 学 习 了 如 何 通过 一 些 扩展 模块 创建 最 常用 
的 统计 图 表 ， 以 及 如 何 通过 StatsModels 包 来 估计 回归 模型 和 分 类 模型 。 最 后 ， 我 们 学 习 
了 如 何 按 计 划 自 动 定期 运行 脚本 ， 这 样 便 可 以 节省 出 时 间 来 进行 其 他 更 重要 的 分 析 工 作 。 
如 果 你 一 直 跟 随 着 本 书 中 的 示例 进行 学 习 和 实践 ， 那 么 能 否 体会 到 ， 你 正经 历 着 从 门外汉 
到 编程 高 手 的 转变 ? 


到 目前 为 止 ， 你 可 能 会 非常 想 知道 下 一 步 应 该 做 些 什 么 。 也 就 是 说 ， 在 掌握 了 使 用 Python 
规模 化 和 自动 化 地 完成 数据 分 析 任 务 之 后 ， 还 应 该 学 习 些 什么 ? 本章 将 会 介绍 标准 Python 
发 布 版 本 中 一 些 其 他 的 功能 ， 在 你 刚 开 始 学 习 Python 时 ， 这 些 功 能 不 是 必要 的 ， 但 它们 确 
实 是 非常 有 趣 而 且 实 用 的 。 在 学 习 了 本 书 前 面 的 章节 之 后 ， 希 望 你 会 发 现 ， 这 些 功 能 更 容 
易 理解 ， 而 且 能 更 方便 地 扩展 前 面 已 经 学 习 过 的 技术 。 


本 章 还 会 讨论 一 下 NumPy、SciPy 和 Scikit-Learn 扩展 包 ， 因 为 它们 分 别提 供 了 基础 的 数据 
容器 和 向 量 和 运算、 可 以 用 于 科学 计算 和 统计 分 析 的 数学 分 布 和 检验 ， 以 及 统计 建 模 方法 和 
机 器 学 习 功 能 ，pandas 包 依 赖 于 这 些 功能 ，StatsModels 包 则 在 这 些 功能 的 基础 上 进行 了 扩 
展 。 例 如 ，Scikit-Learn 提供 了 数据 预 处 理 ， 数 据 降 维 ， 回 归 、 分 类 与 聚集 模型 估计 ， 模 型 
比较 与 选择 ， 交 又 验证 等 强大 的 功能 。 这 些 方法 可 以 帮助 你 创建 、 检 验 和 选择 模型 ， 这 样 
得 出 的 模型 对 新 数据 是 具有 和 鲁 棒 性 的 ， 使 用 这 种 模型 和 新 数据 更 有 可 能 做 出 准确 的 预测 。 


最 后 ， 本 章 还 要 再 介绍 几 种 数据 结构 ， 它 们 有 助 于 你 更 加 熟练 地 使 用 Python。 本 书 重点 介 
绍 的 数据 结构 包括 列表 、 元 组 和 字典 ， 因 为 它们 是 功能 强大 的 基础 数据 容器 ， 完 全 可 以 满 
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足 初 级 编程 的 需要 〈 其 实 ， 对 于 你 现在 的 水 平 ， 只 学 习 这 3 种 数据 结构 也 足够 了 )。 但 
是 ， 还 有 一 些 其 他 数据 结构 ， 像 栈 、 队 列 、 堆 、 树 、 图 ， 等 等 ， 它 们 对 一 些 特殊 的 要 求 
更 加 适用 。 


9.1 更 多 的 标准 库 模块 和 内 置 函 数 


对 于 很 多 Python 内 置 模块 和 标准 库 模 块 ， 以 及 用 于 读 写 和 分 析 文 本 文件 、CSYV 文件 、 
Excel 文件 和 数据 库 中 数据 的 函数 ， 相 信 大 家 已 经 很 熟悉 了 。 例 如 ， 本 书 前 面 章节 已 经 使 
用 过 Python 内 置 的 csv, datetime, re, string 和 sys 模块， 以 及 一 些 Python P] E ER ži, 
如 float, len 和 sum, 


但 是 ， 相 对 于 Python 标准 库 中 的 所 有 模块 和 函数 来 说 ， 前 面 用 到 的 只 是 冰山 一 角 。 所 
以 ， 本 章 还 要 介绍 几 种 模块 和 函数 ， 因 为 它们 对 于 数据 处 理 与 分 析 特 别 重 要 。 这 些 模块 
和 国 数 在 前 面 的 章节 中 没有 涉及 ， 要 么 因为 它们 不 适用 于 那些 特定 的 示例 ， 要 么 因为 它 
们 是 更 高 级 的 选择 。 但 你 应 该 知道 ， 在 特定 的 数据 分 析 任 务 中 ， 这 些 模块 和 函数 是 可 以 
发 挥 作用 的 。 所 以 如 果 你 想 给 自己 设 定 一 个 挑战 ， 那 么 就 应 该 努力 做 到 每 天 或 每 两 天 掌 
担 一 种 以 下 的 新 技术 。 


9.1.1 ”Python 标准 库 (PSL)〉: 更 多 的 标准 模块 

。 collections (PSL8.3) 
这 个 模块 实现 了 一 些 特殊 的 数据 容器 类 型 ， 可 以 作为 Python 内 置 数据 容器 dict, list, 
set 和 tuple 的 替代 品 。 一 些 常 用 于 数据 分 析 的 容器 是 deque, Counter, defaultdict 和 
OrderedDict, 

















































































































。 random (PSL9.3) 
这 个 模块 实现 了 可 用 于 各 种 分 布 的 伪 随 机 数 生 成 器 。 功 能 包括 从 一 个 取 值 范围 内 随机 选 
择 一 个 整数 、 从 序列 中 随机 选择 一 个 元 素 、 随 机 重 排 一 个 序列 、 无 放 回 随机 抽样 ， 以 及 
从 均匀 分 布 、 正 态 (高 斯 ) 分 布 、 伽 玛 分 布 、 贝 塔 分 布 和 其 他 分 布 中 随机 选择 值 。 

。 statistics (PSL9.7) 
这 个 模块 提供 了 为 数值 型 数据 计算 常用 统计 量 的 功能 。 它 可 以 计算 衡量 数据 集中 程度 的 
统计 量 ， 比 如 均值 、 中 位 数 和 众 数 ， 还 可 以 计算 衡量 数据 分 散 程度 的 统计 量 ， 比 如 方差 
和 标准 差 。 

e itertools (PSL10.1) 
这 个 模块 为 一 些 常 用 的 数据 算法 提供 一 系列 存储 高 效 、 运 算 快 速 的 标准 化 迭代 器 〈 也 称 
生成 器 ) 。 这 些 迭 代 器 可 用 于 序列 合并 与 分 离 、 输 入 数据 转换 、 新 数据 生成 以 及 数据 得 
选 和 分 组 。 

。 operator (PSL10.3) 
这 个 模块 提供 了 对 应 于 Python 内 置 运 算 符 的 一 组 高 效 国 数 。 这 些 国 数 中 既 包括 可 以 执 
行 对 象 比较 、 逻 辑 运 算 、 数 学 运算 和 序列 运算 的 国 数 ， 也 包括 可 以 实现 属性 扩展 和 项 目 
查找 的 函数 。 




























































































这 5 个 标准 模块 只 是 Python 标准 库 中 所 有 模块 的 一 小 部 分 。 实 际 上 ，Python 标准 库 中 有 
超出 35 个 分 类 ， 每 个 分 类 中 都 提供 了 关于 某 个 专题 的 各 种 各 样 的 模块 和 国 数 。 因 为 这 
些 模块 都 是 内 置 于 Python 中 的 ， 所 以 你 可 以 用 import 语句 直接 使 用 它们 ， 例 如 : from 
itertools import accumulate 或 者 from statistics import mode。 要 了 解 更 多 关于 Python 
标准 模块 的 信息 ， 可 以 参考 Python 标准 库 (https://docs.python.org/3/library/index.html) 。 


9.1.2 内置 函 数 
同上 面 刚 讨论 过 的 标准 模块 一 样 ， 有 些 内 置 函 数 在 以 前 的 章节 中 没有 涉及 ， 但 是 它们 对 于 
数据 处 理 和 分 析 非 常 重要 。 和 模块 一 样 ， 在 特定 的 数据 分 析 任 务 中 ， 这 些 国 数 是 可 以 发 挥 
作用 的 。 将 下 面 这 些 函 数 加 入 你 的 Python 工具 箱 是 非常 有 用 处 的 。 
e enumerate() 
将 一 个 序列 扩展 为 一 个 元 组 (index, value) 列表 。 
。 filter() 
在 一 个 序列 上 应 用 一 个 函数 ， 返 回 使 函数 为 真 的 序列 中 的 值 。 
e zip() 
将 两 个 序列 中 相同 位 置 的 值 合并 为 一 个 元 组 ， 从 而 使 两 个 序列 合并 成 一 个 序列 。 
这 些 函 数 是 内 置 在 Python 中 的 ， 所 以 你 可 以 直接 使 用 它们 。 要 了 解 更 多 关于 Python 内 置 
国 数 的 信息 ， 可 以 参考 Python 标准 库 (https://docs.python.org/3/library/functions.html)。 此 
外 ， 看 一 下 别人 是 如 何 使 用 这 些 函 数 完 成 特定 分 析 任 务 的 对 你 也 很 有 帮助 。 如 果 你 想 学 
习 一 下 其 他 人 的 方法 ， 可 以 使 用 Google 或 Bing 搜索 "python enumerate examples” 或 者 
“python zip examples”， 这 样 可 以 检索 出 一 大 批 有 用 的 示例 。 


9.2 ”Python 包 索 引 (PyPD : 更 多 的 扩展 模块 


正如 前 面 所 见 ， 标 准 Python 安装 版 本 中 带 有 大 量 内 置 功能 ， 甚 中 的 模块 可 以 存 取 文 本 文件 
和 CSV 文件 、 处 理 文本 和 数值 型 数据 、 计 算 统 计量 ， 还 可 以 实现 本 书 中 未 曾 提 及 的 其 他 
量 强大 功能 。 

但 是 ， 本 书 还 使 用 了 一 些 扩展 模块 ， 比 如 xlrd、matplotlib、MySQL-python、pandas 和 
statsmodels， 这 些 模块 提供 了 Python 标准 库 中 不 具备 的 功能 。 实 际 上 ， 有 帮 干 种 侧重 于 
数据 处 理 的 重要 扩展 模块 ， 在 下 载 安装 之 后 ， 它 们 可 以 提供 一 些 强大 的 功能 ， 包 括 数据 可 
视 化 、 数 据 操作 、 统 计 建 模 和 机 器 学 习 。 这 些 扩展 模块 包括 NumPy, SciPy, Scikit-Learn, 
xarray (原来 称 作 xray)、SKLL、NetworkX、PyMC、NLTK、Cython。 

这 些 模块 以 及 其 他 扩展 模块 ， 都 可 以 从 Python 包 索 引 网 站 (https://pypi.python.org/pypi) 上 
下 载 。 此 外 ， 对 于 需要 区 别 32 位 系统 和 64 位 系统 的 Windows 用 户 来 说 ， 可 以 在 Unofficial 
Windows Binaries for Python Extension Packages 网 站 (http:/Avww.|fd.uci.edu/ ~ gohlke/pythonlibs/ ) 
上 找到 大 量 扩展 包 的 32 位 版 本 和 64 位 版 本 。 

































































































































































9.2.1 NumPy 


NumPy (iff “Num Pie”) 是 一 个 基础 Python 扩展 包 ， 它 〈 主 要 ) 为 数值 型 数据 提供 了 
一 个 快速 高 效 的 多 维 数据 容器 ndarray。 它 还 提供 了 向 量化 版 本 的 数学 和 统计 函数 ， 使 你 
可 以 不 使 用 for 循环 来 操作 数组 。NumPy 提供 的 强大 功能 可 以 对 结构 化 数据 (特别 是 数值 
型 数据 ) 进行 读 取 、 重 塑 、 聚 合 、 切 片 和 切 块 。 
pandas 是 基于 NumPy 开发 的 ， 与 pandas 一 样 ，NumPy 也 封装 和 简化 了 很 多 你 在 本 书 中 已 
经 学 习 过 的 技术 。NumPy 是 一 个 基础 的 扩展 包 ， 它 提供 了 强大 的 ndarray 数据 结构 ， 可 以 
进行 向 量 运算 ， 很 多 扩展 包 都 是 基于 NumPy 开发 的 。 下 面 看 一 下 NumPy 中 的 主要 功能 。 
1. 读 写 CSV 文 件 和 Excel 文 件 
本 书 在 第 2 章 中 讨论 过 如 何 使 用 内 置 的 csv 模块 来 读 写 CSV 文件 。 为 了 要 读 取 一 个 CSV 
文件 ， 可 以 使 用 with 语句 打开 输入 文件 ， 使 用 filereader 对 象 读 出 文件 中 的 所 有 行 。 同 
E, AT SA CSV 文件 ， 可 以 使 用 with 语句 打开 输出 文件 ， 使 用 filewriter 对 象 写 人 输 
出 文件 。 在 这 两 种 情况 下 ， 都 是 使 用 for 循环 在 输入 文件 的 所 有 行 中 进行 和 迭代， 并 对 行 做 
出 相应 的 处 理 。 
NumPy 将 读 写 CSV 文件 和 文本 文件 的 过 程 简化 为 3 个 函数 : loadtxt、genfromtxt 和 
savetxt。 上 默认 情况 下 ，loadtxt 函数 假设 输入 文件 的 数据 是 浮 点 数 ， 并 由 一 定数 量 的 空白 
字符 隔 开 。 当 然 ， 你 可 以 通过 函数 中 的 附加 参数 修改 这 些 默 认 值 。 
2. Loadtxt 
与 第 2 章 中 读 取 文件 的 代码 不 同 ， 如 果 你 的 数据 集中 没有 标题 行 ， 而 且 数 据 是 由 空格 隔 开 
的 浮 点 数 ， 那 么 你 可 以 通过 下 列 语句 将 数据 加 载 到 NumPy 数组 ， 然 后 直接 使 用 数据 : 
from numpy import loadtxt 


my ndarray = loadtxt('input file.csv') 
print(my_ndarray) 


然后 ， 你 可 以 像 本 书 之 前 讨论 过 的 那样 ， 对 数据 进行 各 种 操作 。 再 看 看 另 一 个 示例 ， 假 设 
你 有 一 个 文件 people.txt， 其 中 包含 以 下 数据 : 
















































































name age color score 
clint 32 green 15.6 
john 30 blue 22.3 
rachel 27 red 31.4 


请 注意 这 个 数据 集中 包含 一 个 标题 行 ， 而 且 列 中 的 数据 不 全 是 浮 点 数 。 在 这 种 情况 下 ， 你 
可 以 通过 skiprows 参数 来 跳 过 标题 行 ， 还 可 以 为 每 列 数 据 指定 数据 类 型 : 

from numpy import dtype, loadtxt 

person dtype = dtype([('name', 'S10'), ('age', int), ('color', 'S6'),\ 

('score', float)]) 

people = loadtxt('people.txt', skiprows-1, dtype-person dtype) 

print(people) 


通过 创建 一 个 结构 化 数组 person_dtype， 可 以 指定 姓名 列 中 的 值 为 最 大 长 度 是 10 个 字符 
的 字符 串 ， 年 龄 列 中 的 值 为 整数 ， 颜 色 列 中 的 值 为 字符 串 ， 分 数列 中 的 值 为 浮 点 数 。 
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在 这 个 示例 中 ， 列 是 由 空格 隔 开 的 ， 如 果 数 据 是 由 逗号 隔 开 的 ， 你 可 以 在 Loadtxt 函数 中 
使 用 deLimiter=' ， 来 指定 列 分 隔 符 为 逗号 。 


3. genfromtxt 


genfromtxt 国 数 试图 更 进一步 地 简化 你 的 工作 量 ， 它 甚至 可 以 自动 确定 列 中 的 数据 类 型 。 
和 loadtxt 一 样 ，genfromtxt 国 数 也 提供 了 附加 参数 ， 可 以 方便 地 将 各 种 类 型 的 文件 和 数 
据 读 取 到 结构 化 数组 中 。 


例如 ， 你 可 以 使 用 names 参数 来 指定 是 否 存在 标题 行 ， 还 可 以 通过 converters 参数 对 从 输 
入 文件 中 读 取 的 数据 进行 修改 和 格式 化 : 
from numpy import genfromtxt 
name to int = dict(rachel-1, john=2, clint-3) 
color to int = dict(blue-1, green-2, red-3) 
def convert name(n): 
return name to int.get(n, -999) 
def convert color(c): 
return color to int.get(c, -999) 
data = genfromtxt('people.txt', dtype-float, names-True, V 
converters-(0:convert name, 2:convert color]) 
print(data) 


上 面 这 个 示例 是 想 把 姓名 列 和 颜色 列 中 的 数据 从 字符 串 转换 为 浮 点 数 。 示 例 中 对 每 一 列 都 
创建 一 个 字典 ， 为 原来 的 字符 串 映射 出 一 个 数值 。 同 时 还 定义 了 两 个 辅助 函数 ， 
名 值 和 颜色 值 找 出 字典 中 对 应 的 数值 ， 如 果 姓 名 和 颜色 没有 出 现在 字典 中 ， 则 返回 -999。 
在 genfromtxt paar, S% dtype 表示 结果 数据 集中 所 有 的 值 均 为 浮 点 数 ， 参 数 names 表 
示 genfromtxt 行 作为 列 标题 ， 参 数 converters 设置 了 一 个 字典 ， 将 列 中 的 值 
映射 到 一 个 函数 ， 这 Bis niin TERI. 

4. NR 

除了 使 用 Loadtxt 和 genfromtxt， 你 还 可 以 使 用 基础 Python 将 数据 读 入 一 个 列表 ， 这 个 列 
表 中 的 元 素 是 列表 或 元 组 ， 另 外 也 可 以 使 用 pandas 将 数据 读 入 数据 框 ， 然 后 将 这 些 对 象 转 
换 为 NumPy 数组 。 

5. CSV 文 件 

例如 ， 假 设 你 有 一 个 CSV 文件 myCSVInputFile.csv， 其 中 包含 以 下 数据 : 






















































































Id 























2.1,3.2,4.3 
3.2,4.3,5.2 
4.3,2.6,1.5 
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你 可 以 使 用 本 书 中 讨论 过 的 技术 将 这 些 数据 读 入 一 个 列表 的 列表 ， 然 后 将 列表 转换 为 
NumPy 数组 : 





import csv 

from Numpy import array 

file = open('myCSVInputFile.csv', 'r') 
file reader - csv.reader(file) 

data - [] 

for row list in file reader: 
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row list floats = [float(value) for value in row list] 
data.append(row list floats) 

file.close() 

data - array(data) 

print(data) 


6. Excel 文 件 
同样 ， 如 果 你 有 一 个 Excel 文件 ， 可 以 使 用 pandas 的 read, excel 函数 将 数据 读 入 一 个 数据 
框 ， 然 后 将 数据 框 转换 为 NumPy 数组 : 

from pandas import read excel 

from numpy import array 

myDataFrame = read excel('myExcellInputFile.xlsx') 


data - array(myDataFrame) 
print(data) 


7. savetxt 
NumPy 提供 了 savetxt 函数 ， 可 以 将 数据 写 入 CSV oC ROE ft 28 009 B5 Sc 7s xc f 
你 需要 设 定 输出 文件 名 称 ， 然 后 再 设 定 要 保存 到 文件 中 的 数据 即 可 : 


from numpy import savetxt 
savetxt('output file.txt', data) 


savetxt 默认 使 用 科学 计数 形式 保存 数据 。 但 你 不 想 一 直 用 这 种 方法 ， 所 以 可 以 使 用 fnt 
参数 来 设置 保存 数据 的 形式 。 你 还 可 以 使 用 delimiter 参数 来 设置 列 分 隔 符 : 


savetxt('output_file.txt', data, fmt='%d') 
savetxt('output file.csv', data, fmt='%.2f', delimiter=',') 


还 有 ，savetxt 默认 不 保存 标题 行 。 如 果 你 想 输 出 文件 中 包括 标题 行 ， 那 么 可 以 使 用 
header 参数 提供 一 个 字符 串 。savetxt 默认 在 第 一 个 列 标题 前 面 加 上 一 个 井 号 (#)， 以 使 
这 一 行 成 为 注释 。 你 可 以 通过 将 comments 参数 设 为 空 字符 串 来 取消 这 个 设置 : 

column headings list = ['vari', 'var2', 'var3'] 


DRE 


header string = ','.join(column headings list) 
savetxt('output file.csv', data, fmt='%.2f', delimiter=',', V 
comments='', header-header string) 


8. 筛选 行 
如 果 你 创建 了 一 个 NumPy 结构 化 数组 ， 那 么 就 可 以 和 pandas 一 样 ， 使 用 筛选 条 件 秘 选 出 
特定 的 行 。 例 如 ， 假 设 你 创建 了 一 个 名 为 data 的 结构 化 数组 ， 其 中 的 列 有 成 本 、 供 应 商 代 
码 、 数 量 和 交 货 时 间 ， 你 可 以 使 用 下 面 的 条 件 筛选 出 特定 的 行 : 

row_filter1 = (data['Cost'] > 110) & (data['Supplier'] == 3) 

data[row_filter1] 


row filter2 = (data['Quantity'] > 55) | (data['Time to Delivery'] > 30) 
data[row_filter2] 


第 一 个 筛选 条 件 筛选 出 成 本 大 于 110 并 且 供 应 商 代 码 等 于 3 TT IRE, BA ie AR TIE 
筛选 出 数量 大 于 55 或 者 交 货 时 间 大 于 30 的 行 。 
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9. 选取 特定 列 
在 结构 化 数组 中 选取 一 组 特定 的 列 有 些 难 度 ， 因 为 不 同 列 的 数据 类 型 也 是 不 同 的 。 你 可 以 
定义 一 个 辅助 函数 来 查看 选取 出 的 列 ， 然 后 根据 列 的 数据 类 型 做 出 相应 的 处 理 . 








import numpy as np 

def columns view(arr, fields): 
dtype2 = np.dtype({name:arr.dtype.fields[name] for name in fields}) 
return np.ndarray(arr.shape, dtype2, arr, 0, arr.strides) 


然后 你 可 以 使 用 辅助 函数 查看 从 结构 化 数组 中 选取 出 的 列 。 你 还 可 以 设置 行 筛选 条 件 来 科 
选 出 特定 的 行 ， 并 同时 选取 特定 的 列 ， 这 与 pandas 中 ix 函数 的 用 法 是 一 样 的 : 





supplies view = columns view(supplies, ['Supplier', 'Cost']) 
print(supplies view) 

row filter - supplies['Cost'] » 1000 

supplies row column filters = columns view(supplies[row filter],V 
['Supplier', 'Cost']) 
print(supplies total cost gt 1000 two columns) 


10. 连接 数据 

NumPy 使 用 concatenate、vstack、r_、hstack 和 c_ 函数 来 简化 多 个 数组 的 连接 过 程 。 
concatenate 国 数 比 其 他 国 数 更 常用 ， 它 使 用 一 个 附加 参数 axis 将 一 组 数组 连接 起 来 ， 
axis 表示 数组 应 该 垂直 连接 (axis-0) 还 是 水 平 连接 (axis-1), vstack 函数 和 r_ 函数 专 
门 用 来 垂直 连接 数组 ，hstack 函数 和 c_ 国 数 专门 用 来 水 平 连接 数组 。 例 如 ， 下 面 是 垂直 
连接 数组 的 3 种 方式 : 




















import numpy as np 

from numpy import concatenate, vstack, r_ 

array concat = np.concatenate([array1, array2], axis=0) 
array concat - np.vstack((array1, array2)) 

array concat = np.r_[array1, array2] 


这 3 个 国 数 会 得 到 同样 的 结果 。 在 每 行 代 码 中 ， 国 数 中 的 数组 被 垂直 连接 ， 一 个 在 另 一 个 
的 上 而 。 如 果 你 将 结果 对 给 一 个 新 的 变量 ， 那 么 就 得 到 了 一 个 更 大 的 新 数组 ， 里 面包 含 着 
两 个 输入 数组 中 所 有 的 数据 。 











A 


到 


同样 ， 以 下 是 平行 连接 数组 的 3 种 方式 : 





import numpy as np 

from numpy import concatenate, hstack, c. 

array concat = np.concatenate([array1, array2], axis=1) 
array concat = np.hstack((array1, array2)) 

array concat = np.c_[array1, array2] 


这 3 个 函数 也 得 到 了 同样 的 结果 。 在 每 行 代码 中 ， 函 数 中 的 数组 被 平行 连接 在 一 起 ， 并 排 
排列 。 

11. 其 他 功能 

这 一 节 介 绍 了 NumPy 的 一 些 特点 和 功能 ， 但 是 还 有 更 多 功能 需要 学 习 。NumPy 和 基础 
Python 的 一 个 重要 不 同 之 处 是 NumPy 可 以 进行 向 量化 运算 ， 就 是 说 你 可 以 对 整个 数组 应 
用 一 个 操作 ， 这 个 操作 会 作用 于 数组 中 的 所 有 元 素 ， 而 不 需要 使 用 for 循环 。 





























例如 ， 如 果 你 有 两 个 数组 ，array1 和 array2， 你 想 把 它们 按照 每 个 元 素 加 在 一 起 ， 那 么 只 
要 简单 地 使 用 array_sum=arrayl+array2 即 可 。 这 个 操作 会 将 两 个 数组 中 的 所 有 元 素 分 别 相 
加 ， 从 而 得 到 一 个 新 的 数组 ， 新 数组 中 每 个 位 置 上 的 值 就 是 原来 两 个 数组 相同 位 置 上 的 值 
的 和 。 而 且 ， 向 量化 运算 是 使 用 C 代码 执行 的 ， 所 以 运算 速度 特别 快 。 


NumPy 的 另 一 个 强大 功能 是 可 以 在 数组 上 执行 统计 计算 。 这 些 统 计 计 算 包 括 sum, prod, 


amin, amax, mean, var, 


FEAR. amin 和 amax 可 以 找 出 数组 中 的 最 小 值 




















std, argmin 和 argmax。sum 和 prod 计算 数组 中 所 有 值 的 总 和 与 











和 最 大 值 。mean、var 和 std 计算 数组 中 所 有 











值 的 均值 、 方 差 和 标准 差 。argmin 和 argmax 可 以 找 出 数组 中 最 小 值 和 最 大 值 的 索引 位 置 。 
所 有 这 些 函 数 都 具有 axis 参数 ， 所 以 你 可 以 设置 axis 参数 ， 来 指定 是 沿 着 列 进行 垂直 计 
算 (axis=0)， 还 是 沿 着 行进 行 水 平 计算 (axis-1), 

要 想 下 载 NumPy， 或 想 了 解 更 多 关于 NumPy 的 信息 ， 请 访问 NumPy 网 站 (http://www. 


numpy.org)。 


9.2.2 SciPy 
SciPy ( 读 作 “Sigh Pie") 是 另 一 个 Python 基础 扩展 包 ， 它 提供 用 于 科学 计算 与 统计 分 析 
的 各 种 分 布 和 国 数 ， 以 及 数学 、 科 研 和 工程 方面 的 检验 。SciPy 具有 广泛 的 适用 范围 ， 它 
的 功能 分 布 在 各 种 子 扩展 包 内 。 重 要 的 子 扩展 包 如 下 。 





cluster 

提供 聚集 算法 
constants 
提供 物理 和 数学 常数 
interpolate 

提供 用 于 插值 和 平 请 样 条 的 函数 
io 

提供 输入 /输出 函数 
linalg 

提供 线性 代数 运算 
sparse 

TE DER LAB ES T 
spatial 

提供 空间 数据 结构 和 算法 
Stats 
提供 统计 分 布 与 函数 
weave 


提供 C/C++ 集成 

































































从 上 面 的 列表 中 可 以 看 出 ，SciPy 的 子 扩展 包 提供 了 非常 丰富 的 操作 和 计算 功能 。 例 如 ， 
linalg 扩展 包 提 供 了 在 二 维 数组 上 进行 快速 线性 代数 运算 的 功能 ，interpolate 扩展 包 提 
供 了 在 两 点 之 间 进 行 线性 插值 和 曲线 插值 的 功能 ，stats 扩展 包 提 供 了 使 用 随机 变量 、 计 
算 并 检验 描述 性 统计 量 和 回归 分 析 的 功能 

SciPy 是 一 个 基础 扩展 包 ， 除 了 提供 丰富 实用 的 数学 和 统计 功能 之 外 ， 它 还 是 很 多 其 他 扩 
展 包 的 基础 ， 下 面 来 看 一 下 SciPy 中 的 重要 功能 

1. linalg 

linalg J Je te (t T BUR EAE RBS AY ERR, LTR RE RTIA, ThE 


数 。 它 还 包括 了 进行 矩阵 分 解 的 函数 ， 以 及 指数 函数 、 对 数 函 数 和 三 角 函 数 。 男 外 ， 还 有 
其 他 一 些 有 用 的 函数 可 以 快速 求解 线性 方程 组 和 线性 最 小 二 乘 问 题 。 


线性 方程 组 。SciPy 提供 了 tlinatg.solve 函数 来 计算 线性 方程 组 的 解 向 量 。 假 设 我 们 想 要 
求解 以 下 的 线性 联 立 方程 组 : 

© x+2y+3z=3 

e 2x+3y+z=-—10 

e Sx—y+2z= 14 


可 以 使 用 一 个 系数 矩阵 、 一 个 未 知 数 向 量 和 一 个 右 侧 向 量 来 表示 这 个 方程 组 。linalg. solve 
函数 使 用 系数 矩阵 和 右 侧 向 量 可 以 求 出 未 知 数 QE x. y Fz) : 


from numpy import array 

from scipy import linalg 

A = array([[1,2,3], [2,3,1], [5,-1,2]]) 
b = array([[3], [-10], [14]]) 

solution = linalg.solve(A, b) 
print(solution) 










































































方程 组 中 x、y 和 z 的 值 分 别 是 : 0.1667, —4.8333 和 4.1667, 

最 小 二 乘 回 归 。SciPy 提供 了 Vinalg.lstsa 函数 来 计算 线性 最 小 二 乘 问题 的 解 向 量 。 在 计 
量 经 济 学 中 会 经 常见 到 使 用 矩阵 表示 的 最 小 二 乘 估计 模型 A PR: 

e y=Xbt+e 

这 里 的 y 是 一 个 表示 因 变 量 的 向 量 ,， X 是 自 变 量 的 系数 矩阵 ，b 是 要 进行 估计 的 解 向 量 ，e 
是 从 数据 中 计算 出 的 残 差 向 量 。linalg.1lstsq 函数 使 用 系数 矩阵 对 和 因 变 量 y 求解 出 解 向 


b: 

















import numpy as np 

from scipy import linalg 

c1, c2 = 6.0, 3.0 

i = np.r [1:21] 

xi = 0.1*i 

yi = ci*np.exp(-xi) + c2*xi 

zi = yi + 0.05 * np.max(yi) * np.random.randn(len(yi)) 
A = np.c [np.exp(-xi)[:, np.newaxis], xi[:, np.newaxis]] 
C, resid, rank, sigma - linalg.lstsq(A, zi) 

print(c) 
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ix HE c1, c2, in xt 仅 用 来 构造 
正 的 因 变 量 ， 它 向 yt 中 加 入 了 一 些 随机 扰动 。Lstsq 函数 的 返 





因 变 量 的 初始 形式 yi。 下 一 行 代码 中 构造 的 zt 才 是 真 
回 值 包括 c、 残 差 (resid), 














rank 和 sigma。c 中 的 两 个 值 就 是 最 小 二 乘 问 题 的 解 ， 为 5.92 和 3.07。 


2. interpolate 





interpolate 扩展 包 提 供 了 在 已 知 数据 点 之 间 进 行 线性 插值 和 曲线 插值 的 功能 。 用 于 单 变 
量 数 据 的 函数 是 interp1d， 用 于 多 变量 数据 的 函数 是 griddata。 这 个 扩展 包 还 提供 了 样 条 











插值 函数 和 人 径 向 基 沙 数 ， 可 以 用 来 对 数据 进行 平滑 和 插值 。inter1d 函数 接受 两 个 数组 为 
参数 ， 返 回 一 个 函数 对 象 ， 这 个 函数 使 用 插值 法 找 出 新 数据 点 的 值 : 

















from numpy import arange, exp 
from scipy import interpolate 
import matplotlib.pyplot as plt 
x = arange(0, 20) 
y = exp(-x/4.5) 
interpolation function = interpolate.interpid(x, y) 
new x = arange(0, 19, 0.1) 

new y = interpolation function(new x) 


plt.plot(x, y, 'o', new x, new y, '-') 
plt.show() 
在 代码 生成 的 图 中 ，20 个 蓝 色 圆 点 为 初始 数据 点 。 在 初始 数据 点 之 间 ， 绿 色 直 线 连 接着 的 








新 数据 点 就 是 插值 。 因 
线性 插值 法 来 计算 插值 

















函数 应 该 使 用 的 插值 方法 。 


3. stats 


stats 扩展 包 提供 的 功能 包括 按照 特定 的 分 布 求 值 、 计 算 描述 性 统计 量 、 





分 析 等 。 

















为 我 没有 在 interp1d 函数 中 设置 kind 参数 ， 所 以 函数 使 用 默认 的 
。 不 过 ， 你 可 以 指定 quadratic、cubic 或 另外 的 字符 串 或 整数 作为 





统计 检验 、 回 归 

















这 个 扩展 包 提 供 了 超过 80 个 连续 随机 变量 和 10 个 离散 随机 变量 。 它 既 可 以 进行 





单 样本 分 析 检 验 ， 也 可 以 进行 双 样 本 比较 检验 。 扩 展 包 中 还 有 进行 核 密 度 估 计 的 函数 ， 或 
通过 一 组 数据 对 一 个 随机 变量 的 概率 密度 函数 进行 估计 。 


描述 型 统计 量 。stats 扩展 包 提 供 了 一 些 计算 描述 型 统计 量 的 函数 : 


from scipy.stats import norm, describe 
x = norm.rvs(loc-5, scale-2, size-1000) 

















print(x.mean()) 

print(x.min()) 

print(x.max()) 

print(x.var()) 

print(x.std()) 

x nobs, (x min, x max), x mean, x variance, x skewness, x kurtosis - describe(x) 
print(x nobs) 


这 个 示例 创建 了 一 个 数组 x， 从 一 个 均值 
var 和 std 分 别 计 算出 x 的 均值 、 最 小 值 、 
同样 ，describe 函数 可 以 返回 x 中 的 观测 数量 、 最 小 值 和 最 大 


函数 mean, min, 


度 和 峰 度 。 





max、 








为 5 标准 差 为 2 的 正 态 分 布 中 提取 出 1000 个 值 。 
最 大 值 、 方 差 和 标准 差 。 
直 、 均 值 和 方差 、 以 及 偏 斜 






































从 这 里 


线性 回归 。stats 扩展 包 简 化 了 在 线性 回归 中 估计 斜率 和 截 距 的 过 程 。 除 了 和 斜率 和 截 距 ， 
linregress 国 数 还 可 以 返回 相关 系数 、 原 假设 〈 和 斜率 为 0) 的 双 侧 p 值 ， 以 及 估计 的 标 
TEE. 

from numpy.random import random 

from scipy import stats 

x - random(20) 

y = random(20) 

slope, intercept, r value, p value, std err - stats.linregress(x, y) 

print("R-squared:", round(r value**2, 4)) 


在 这 个 示例 中 ，pring 语句 打印 出 相关 系数 的 平方 ， 以 显示 R 方 的 值 。 


以 上 示例 相对 于 SciPy 中 所 有 子 包 和 函数 来 说 ， 只 是 冰山 之 一 角 。 要 想 下 载 或 了 解 更 多 关 
于 SciPy 的 信息 ， 请 访问 SciPy 网 站 ( http://docs.scipy.org/doc/scipy/reference)。 


























9.2.3 Scikit-Learn 


Scikit-Learn 扩展 包 提 供 了 估计 机 器 学 习 统 计 模 型 的 功能 ， 包 括 回 归 、 分 类 和 聚集 模型 ， 还 
有 数据 处 理 、 数 据 降 维和 模型 选择 等 功能 。Scikit-Learn 既 可 以 处 理 监督 式 学 习 模型 ， 也 可 
以 处 理 无 监督 式 学 习 模 型 。 监 督 式 模型 中 带 有 因 变 量 值 或 类 标号 ， 无 监督 式 模型 中 则 没有 
因 变 量 值 和 类 标号 。Scikit-Learn 中 有 一 组 函数 ， 可 以 进行 各 种 形式 的 交叉 验证 (使 用 没有 
用 来 拟 合 模型 的 数据 来 检验 模型 性 能 )， 这 是 它 与 StatsModels 的 一 个 主要 区 别 。 

使 用 拟 合 模型 的 同一 数据 来 检验 模型 性 能 是 一 种 错误 的 方法 ， 因 为 这 样 建立 的 模型 在 使 用 
原 有 数据 来 检验 时 ， 会 相当 完美 地 重 现 因 变 量 的 值 或 类 标号 。 根 据 原 有 数据 得 出 的 结果 ， 
这 些 模型 的 表现 会 非常 棒 ， 实 际 上 ， 它 们 对 建 模 数据 进行 了 过 拟 合 ， 在 使 用 新 数据 进行 预 
测 时 ， 往 往 得 不 到 好 的 结果 。 
为 了 避免 过 拟 合 ， 估 计 出 在 新 数据 上 也 能 表现 出 优异 性 能 的 模型 ， 通 常 是 将 数据 集 分 成 两 
部 分 : 训练 集 和 测试 集 。 训 练 集 用 来 构建 和 拟 合 模型 ， 测 试 集 用 来 评价 模型 的 性 能 。 因 为 
拟 合 模型 的 数据 与 评价 模型 性 能 的 数据 是 不 同 的 ， 所 以 可 以 降低 过 拟 合 的 概率 。 多 次 将 数 
据 集 分 成 两 部 分 ， 用 训练 集训 练 模型 ， 并 用 测试 集 测 试 模型 ， 这 个 过 程 就 称 为 交叉 验证 。 
有 很 多 方法 可 以 用 来 交叉 验证 ， 最 基本 的 方法 称 为 k 折 交 又 验证。 在 大 折 交 又 验证 中 ， 初 
始 数 据 集 被 划分 为 一 个 训练 集 和 一 个 测试 集 ， 训 练 集 又 被 划分 为 个 部 分 ， BR kH Bl 
An: 5 折 或 10 折 )。 然 后 ,分 别 留 下 1 折 数 据 用 来 评价 模型 性 能 ， 使 用 其 余 k—1 折 数 据 作 
为 训练 数据 去 拟 合 模型 ， 此 类 过 程 共 进行 次。 这样 的 交叉 验证 过 程 会 产生 多 个 性 能 值 ， 
每 折 数 据 对 应 一 个 性 能 值 ， 最 终 的 训练 集 性 能 测量 结果 就 是 每 折 的 性 能 值 的 均值 。 最 后 ， 
在 测试 集 上 运行 交 又 验证 模型 ， 计 算出 模型 的 总 体 性 能 值 。 

为 了 表现 在 Scikit-Learn 中 构建 统计 学 习 模 型 有 多 么 简单 直接 ， 可 以 使 用 交叉 验证 建立 一 
个 随机 森林 模型 。 如 果 你 不 了 解 随机 森林 模型 ， 可 以 查看 一 下 维基 百科 中 的 条 目 (https:// 
en.wikipedia.org/wiki/Random_forest) ， 获 得 一 个 整体 的 了 解 。 如 果 想 更 深入 地 研究 一 下 ， 
可 以 参考 Trevor Hastie, Robert Tibshirani 和 Jerome Friedman 的 著作 《统计 学 习 基 础 》， 或 
者 Max Kuhn 和 Kjell Johnson 的 著作 《应 用 预测 建 模 》， 这 两 本 著作 都 是 这 个 领域 内 的 绝 好 
































































































































230 | 第 9 章 


教材 。 在 Scikit-Learn 中 ， 通 


型 并 对 模型 性 能 做 出 评价 : 


import numpy as np 
import pandas as pd 
from sklearn.preprocess 
from sklearn.cross vali 
from sklearn.ensemble ii 


y = data frame['Purchas 
y pred = y.copy() 

feature space - data fr 
X = feature space.as ma 
scaler - StandardScaler 
X = scaler.fit transfor 


kf = KFold(len(y), n fo 

for train index, test i 
X train, X test = X 
y train = y[train i 
clf - RF() 
Cclf.fit(X train, y_ 
y pred[test index] 


accuracy = np.mean(y == 
print "Random forest: " 





过 寥 容 几 行 代码 ， 就 可 以 使 用 交 又 验证 构建 一 个 随机 森林 模 


ing import StandardScaler 
dation import KFold 
mport RandomForestClassifier as RF 


ed?'] 


ame[numeric columns] 
trix().astype(np.float) 


O 
m(X) 


lds=5, shuffle-True, random state-123) 
ndex in kf: 

[train index], X[test index] 

ndex] 


train) 
- clf.predict(X test) 


y. pred) 
+ "%.3f" % (accuracy) 


前 5 行 代码 导入 NumPy, pandas 和 Scikit-Learn 中 的 3 个 组 件 。 这 3 个 组 件 的 功能 依次 为 : 
对 解释 变量 进行 中 心 化 与 比例 化 、 执 行 折 交叉 验 证、 应 用 随机 森林 分 类 器 。 


下 一 段 代码 进行 以 下 处 理 : 定义 因 变量 y、 创 建 解释 变量 矩阵 xXx、 对 解释 变量 进行 中 心 化 








和 比例 化 。 这 段 代码 假设 你 
在 Purchased? 列 中 。copy ER 


iN 














已 经 创建 了 一 个 pandas 数据 框 data_frame， 并 且 因 变量 数据 
数 生 成 了 因 变 量 的 一 个 副本 ， 并 将 其 赋 给 变量 y_pred， 这 个 











变量 将 用 来 评价 模型 性 能 。 下 一 行 代码 假设 你 已 经 在 data_frame 中 创建 了 一 个 数值 型 变量 
列表 ， 所 以 你 可 以 使 用 列表 中 的 变量 作为 解释 变量 集合 (特征 集合 )。 再 下 一 行 代码 使 用 











NumPy 和 pandas 函数 将 特 和 
Learn 函数 创建 一 个 scaler 对 


FE 集 合 转 换 为 一 个 矩阵 Xx。 这 段 中 的 最 后 2 行 代码 使 用 Scikit- 
象 ， 并 使 用 这 个 对 象 对 解释 变量 进行 中 心 化 和 比例 化 。 





下 一 段 代码 使 用 随机 森林 分 类 器 实现 大 折 交 叉 验 证 。 第 一 行 代码 使 用 KFold 函数 将 数据 集 
分 成 5 份 ， 或 称 5 折 ， 作 为 训练 集 和 测试 集 。 下 一 行 代码 是 一 个 for 循环 ， 在 每 折 数 据 之 
HEIE. dE for 循环 中 ， 对 于 每 一 折 ， 将 训练 集 和 测试 集 数 据 赋 给 相应 的 解释 变量 ， 将 训 
练 集 数 据 赋 给 因 变 量 ， 初 始 化 随机 森林 分 类 器 ， 使 用 训练 集 数 据 拟 合 随机 森林 模型 ， 然 后 





使 用 模型 和 测试 集 数 据 为 因 变 量 估计 预测 值 。 























最 后 一 段 代码 计算 并 报告 模型 的 准确 度 。 第 一 行 代码 使 用 NumPy 的 mean 函数 计算 出 因 变 
量 预 测 值 等 于 实际 初始 值 的 平均 次 数 。 括 号 中 的 判断 条 件 检 验 这 两 个 值 是 否 相 等 ( 即 它 们 





是 否 同 时 为 1 或 者 同时 为 0) 








， 所 以 mean 函数 计算 出 一 系列 1 和 0 的 均值 。 如 果 所 有 预测 




















值 都 匹配 了 初始 数据 值 ， 那 么 均值 为 1。 如 果 所 有 预测 值 都 不 匹配 初始 数据 值 ， 那 么 均值 
为 0。 因 此 ， 这 里 希望 交 又 验证 随机 森林 分 类 器 产生 一 个 接近 于 1 的 均值 。 最 后 一 行 在 屏 
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幕 上 打印 出 保留 3 位 小 数 的 模型 准确 度 。 

这 个 示例 演示 了 在 Scikit-Learn 中 使 用 随机 森林 分 类 器 进行 交叉 验证 的 方法 。 除 了 本 市 中 
介绍 的 随机 森林 模型 ，Scikit-Learn 中 还 有 很 多 其 他 类 型 的 回归 和 分 类 模型 。 例 如 ， 只 要 将 
下 面 的 import 语句 添加 到 脚本 中 ， 并 且 将 分 类 器 从 clf = RFO 修改 为 clf = SVC()， 就 可 
以 实现 一 个 支持 向 量 机 模型 : 


from sklearn.svm import SVC 
除了 各 种 模型 ，Scikit-Learn 中 还 有 很 多 用 于 数据 预 处 理 、 数 据 隆 维和 模型 选择 的 函数 。 


要 了 解 更 多 关于 Scikit-Learn 的 信息 ， 以 及 其 他 使 用 交叉 验证 估计 模型 的 方法 ， 请 参考 
Scikit-Learn 文档 (http://scikit-learn.org/stable/index.html) 。 


9.2.4 更 多 的 扩展 包 


除了 NumPy、SciPy 和 Scikit-Learn， 根 据 不 同类 型 数据 分 析 工 作 的 要 求 ， 你 可 能 需要 了 解 
更 多 的 扩展 包 。 下 面 的 列表 相对 于 Python 包 索 引 中 成 千 上 万 的 扩展 包 来 说 ， 只 是 沧海 一 
票 ， 列 出 的 这 些 扩 展 包 仅 是 作为 一 个 推荐 ,希望 你 对 此 感 兴趣 并 能 实际 应 用 : 
e xarray (http://xray.readthedocs.org/en/stable/#) 

提供 一 个 类 似 pandas 的 工具 箱 ， 用 于 多 维 数组 分 析 
e SKLL (https://skll.readthedocs.org/en/latest/index.html) 

为 一 般 的 Scikit-Learn 操作 提供 命令 行 工具 
e NetworkX (https://networkx.github.io/documentation.html) 

提供 创建 、 生 长 和 分 析 复 杂 网 络 的 函数 
e PyMC (https://pymc-devs.github.io/pymc/index.html) 

提供 实现 贝 叶 斯 统计 和 MCMC (马尔 科 夫 链 蒙 特 卡 洛 ) 方法 的 函数 
e NLTK (http:/www.nltk.org/) 

提供 用 于 自然 语言 处 理 的 文本 处 理 和 分 析 工 具 
e Cython (http://cython.org/) 

提供 一 个 在 Python 中 生成 和 调用 快速 C 代码 的 接口 
以 上 扩展 包 不 包含 在 Python 安装 程序 中 ， 你 必须 分 别 下 载 并 安装 。 如 想 下 载 安装 这 些 扩展 
包 ， 可 以 访问 Python £228 9E dX (https:/pypi.python.org/pypi) ， 或 者 Unofficial Windows 
Binaries for Python Extension Packages 网 站 (http:/www.lfd.uci.edu/~gohlke/pythonlibs/) 。 


9.3 更 多 的 数据 结构 


当 你 结束 了 对 本 书 的 学 习 ， 开 始 使 用 Python 完成 各 种 各 样 的 商业 数据 处 理 与 分 析 任务 时 ， 
就 会 越 来 越 觉 得 掌握 更 多 的 数据 结构 是 非常 重要 的 。 通 过 学 习 这 些 概念 ， 你 会 极 大 地 提高 
解决 问题 的 能 力 ， 在 面临 问题 时 ， 不 仅 可 以 提出 各 种 不 同 的 解决 方案 ， 还 可 以 在 不 同 的 方 
案 之 中 做 出 权衡 取舍 。 同 时 ， 你 也 可 以 根据 实际 情况 恰当 地 选择 数据 结构 ， 来 更 快速 有 效 
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地 保存 、 处 理 和 分 析 你 的 数据 。 


你 还 需要 了 解 的 其 他 数据 结构 包括 栈 、 队 列 、 图 和 树 。 在 特定 情况 下 ， 这 些 数据 结构 可 以 
更 有 效 地 保存 和 检索 数据 ， 能 够 比 列表 、 元 组 和 字典 更 好 地 使 用 内 存 。 


9.3.1 栈 


栈 是 一 个 项 目的 有 序 集合 ， 既 可 以 向 栈 中 的 一 端 添 加 一 个 项 目 ， 又 可 以 从 同一 端 删 除 一 个 
MA, 但 一 次 只 能 添加 或 删除 一 个 项 目 。 可 以 添加 和 删除 项 目的 一 端 称 为 栈 硕 ， 相 反 的 一 
端 称 为 栈 底 。 给 定 了 栈 顶 和 栈 底 之 后 ， 栈 顶 附 近 的 项 目 停 留 在 栈 中 的 时 间 要 少 于 栈 底 附近 
的 项 目 。 另 外 ， 从 栈 中 删除 项 目的 顺序 和 向 栈 中 添加 项 目的 顺序 是 相反 的 。 这 个 特性 称 为 
LIFO (last in, first out, GAEL). 


可 以 将 栈 想象 为 自助 餐厅 中 的 一 释 盘 子 。 要 想 产 生 一 全 盘子 ， 可 以 先 向 柜台 上 放 一 个 盘 
子 ， 然 后 向 第 一 个 盘子 上 面 再 放 一 个 盘子 ， 并 一 直 重 复 这 个 操作 。 要 想 减 少 这 释 盘 子 的 数 
量 ， 就 要 从 顶端 拿 走 一 个 盘子 。 你 可 以 在 任何 时 候 增 加 或 减少 一 个 盘子 ， 但 是 必须 一 直 从 
顶端 增加 或 减少 。 


有 很 多 数据 处 理 和 分 析 问 题 适 合 使 用 栈 来 解决 。 人 们 使 用 栈 来 分 配 和 访问 计算 机 内 存 、 保 
存 命令 行 参数 和 国 数 参 数 、 解 析 表 达 式 、 反 转 数据 项 、 保 存 与 回调 URL， 等 等 。 


9.3.2 ”队列 


队列 是 一 个 项 目的 有 序 集 合 ， 既 可 以 向 队列 的 一 端 添加 项 目 ， 又 可 以 从 队列 的 另 一 端 删 除 
项 目 。 在 队列 中 ， 可 以 向 队列 后 端 添 加 项 目 ， 这 样 项 目 会 依次 向 前 移动 ， 并 在 前 端 被 移出 
队列 。 给 定 了 队列 的 前 端 和 后 端 ， 队 列 后 端 附近 的 项 目 停留 在 队列 中 的 时 间 要 少 于 队列 前 
端 附近 的 项 目 。 这 个 特性 称 为 FIFO (first in, first out， 先 入 先 出 )。 

想象 一 下 你 曾经 排 过 的 一 个 秩序 良好 的 队列 ， 或 者 队伍 。 不 管 是 在 主题 公园 、 电 影院 ， 还 
是 在 杂货 店 ， 你 进入 队列 ， 排 在 未 尾 ， 然 后 向 前 移动 直到 队列 最 前 方 ， 这 时 你 可 以 买 票 或 
接受 服务 ， 然 后 你 就 离开 了 队列 。 

有 很 多 数据 处 理 和 分 析 问 题 适 合 使 用 队列 来 解决 。 人 们 使 用 队列 来 处 理 打 印 机 上 的 打印 任 
务 、 控 制 计算 机 进程 等 待 资 源 、 优 化 队列 和 网 络 流程 ， 等 等 。 



































9.3.3 图 


图 是 一 组 结 点 (也 称 为 顶点 ) 和 连接 结 点 的 边 的 集合 。 边 可 以 是 有 方向 的 ， 表 示 两 个 结 点 
之 间 的 方向 ， 也 可 以 是 无 方向 的 ， 仅 表示 两 个 结 点 之 间 的 连接 。 边 还 可 以 具有 权重 ， 表 示 
两 个 结 点 之 间 的 关系 ， 根 据 具 体 问 题 的 情况 ， 权 重 可 以 不 同 。 


想象 任何 表示 人 群 、 地 点 和 主题 之 间 关 系 的 图 。 例 如 ， 可 以 想象 一 下 表示 演员 、 导 演 和 电 
影 之 间 关系 的 图 ， 演 员 、 导 演 和 电影 就 是 图 中 的 结 点 ， 结 点 之 间 的 边 表示 哪个 演员 出 演 了 
这 部 电影 ， 或 者 哪个 导演 指导 了 这 部 电影 。 再 比如 ， 可 以 将 城市 作为 结 点 ， 结 点 之 间 的 边 
表示 从 一 个 城市 到 另 一 个 城市 之 间 的 道路 。 这 样 的 边 就 可 以 使 用 权重 表示 两 个 城市 之 间 的 
距离 。 
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有 很 多 数据 处 理 和 分 析 问 题 适 合 使 用 图 来 解决 。 人 们 使 用 图 来 表示 供应 商 、 客 户 和 产品 
之 间 的 关系 ， 或 者 实体 之 间 的 关系 ， 还 使 用 图 来 表示 地 图 ， 以 及 不 同类 型 资源 的 储量 和 


需求 量 。 


























9.3.4 树 


从 数据 结构 意义 上 说 ， 树 是 图 的 一 种 特殊 形式 ， 它 由 一 组 层次 化 的 结 点 和 边 组 成 。 在 树 
中 ， 有 一 个 最 顶层 的 结 点 ， 称 为 根 结 点 。 根 结 点 可 以 有 任意 数量 的 子 结 点 ， 每 个 子 结 点 也 
可 以 有 任意 数量 的 子 结 点 。 一 个 子 结 点 只 能 有 一 个 父 节 点 。 如 果 每 个 结 点 有 多 达 两 个 子 结 
点 ， 那 么 这 样 的 树 就 被 称 为 二 又 树 。 


考虑 一 下 HTML 文件 中 的 元 素 。 在 html 标签 之 中 ， 有 head 标签 和 body 标签 。 在 head 标 
签 之 中 ， 有 meta 标签 和 title 标签 。 在 body 标签 之 中 ， 有 hi, div, form 和 ul 标签 。 如 
果 用 树 结构 表示 这 些 标签 的 话 ， 就 可 以 将 html 标签 看 作 根 结 点 ， 它 有 两 个 子 结 点 ，head 
标签 和 body 标签 。 在 表示 head 标签 的 结 点 下 面 ， 有 meta 标签 和 title 标签 。 在 表示 body 
标签 的 结 点 下 面 ， 有 hl 标签 、div 标签 、form 标签 和 ul 标签。 


有 很 多 数据 处 理 和 分 析 问 题 适 合 使 用 树 来 解决 。 人 们 使 用 树 来 建立 计算 机 中 的 文件 系统 、 
管理 层次 化 的 数据 、 使 信息 更 易于 检索 ， 以 及 表示 句子 中 的 短语 结构 等 。 


本 市 简单 介绍 了 一 些 经 典 的 数据 结构 。 如 果 想 学 习 更 多 如 何在 Python 中 使 用 这 些 数 据 结构 
的 知识 ， 可 以 参考 Brad Miller 和 David Ranum 的 在 线 著作 Problem Solving with Algorithms 
and Data Structures Using Python (http://interactivepython.org/runestone/static/pythonds/index. 
html), 


知道 这 些 数据 结构 的 存在 对 你 是 很 有 帮助 的 ， 当 你 的 程序 运行 得 不 是 那么 好 的 时 候 ， 可 以 
试 试 这 些 数据 结构 。 了 解 并 知道 在 什么 情况 下 应 该 使 用 哪 种 数据 结构 ， 你 就 有 能 力 去 解决 
各 种 规模 庞大 、 难 度 系数 高 的 问题 ， 并 能 提高 脚本 的 性 能 ， 节 省 处 理 时 间 ， 提 高 内 存 的 利 


9.4 从 这 里 局 航 


当 你 开始 阅读 本 书 时 ， 如 果 从 来 没有 接触 过 编程 ， 那 么 在 跟随 书 中 的 示例 进行 练习 时 ， 也 
应 该 获得 了 很 多 基础 的 编程 经 验 。 本 书 先 从 下 载 安装 Python 开始 ， 使 用 文本 编辑 器 编写 
了 一 个 基本 的 Python 脚本 ， 然 后 演示 了 如 何在 Windows 系统 和 macOS 系统 中 运行 这 个 脚 
本 。 在 此 之 后 ， 本 书 开 发 了 第 一 个 脚本 ， 来 学 习 Python 中 的 基本 数据 类 型 、 数 据 结构 、 控 
制 流 ， 以 及 读 写 文本 文件 的 方法 。 然 后 ， 本 书 演示 了 如 何 解析 CSV 文件 中 特定 的 行 与 列 ， 
如 何 解析 Excel 文件 中 特定 的 工作 表 、 行 与 列 ， 以 及 如 何在 数据 库 中 加 载 、 修 改 和 输出 数 
据 。 在 第 3 章 和 第 4 章 中 ， 本 书 下 载 安装 了 MySQL 和 一 些 Python 扩展 模块 。 在 获得 了 以 
上 成 功 经 验 之 后 ， 本 书 在 第 5 章 中 使 用 新 学 的 编程 技能 完成 了 3 个 实际 应 用 ， 并 对 编程 能 
力 进 行 了 扩展 。 然 后 ， 在 第 6 章 和 第 7 章 中 ， 本 书 从 数据 处 理 过 渡 到 了 数据 可 视 化 和 统计 
分 析 。 最 后 ， 在 第 8 章 中 ， 本 书 演示 了 如 何 自动 运行 脚本 ， 这 样 不 需要 在 命令 行 中 手动 操 
作 ， 脚 本 就 可 以 定期 运行 了 。 在 将 要 结束 本 书 时 ， 你 可 能 正在 思考 这 个 问题 : 下 一 步 该 做 
些 什 么 呢 ? 
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在 自己 的 学 习 经 历 中 ， 我 曾经 得 到 过 一 些 有 价值 的 建议 ， 比 如 : 确定 一 个 你 认为 可 以 通过 
Python 来 改善 的 、 重 要 的 或 者 感 兴趣 的 具体 问题 (或 任务 )， 然 后 开始 着 手 解决 这 个 问题 ， 
直到 完成 你 设 定 的 目标 为 止 。 你 应 该 选择 一 个 重要 的 或 者 感 兴 趣 的 问题 ， 这 样 你 就 会 对 这 
个 问题 充满 热情 ， 并 投入 大 量 精力 来 达到 你 的 目标 。 在 解决 问题 的 过 程 中 ， 你 会 遇 到 很 多 
绊脚石 ， 走 各 种 弯路 ， 还 可 能 进入 死胡同 ， 所 以 你 选择 的 问题 应 该 足够 重要 ， 以 使 你 能 够 
坚持 编写 、 调 试 、 修 改 代码 ， 克 服 备 种 困难 ， 直 至 使 代码 正确 运行 。 还 有 ， 在 选择 具体 的 
问题 和 任务 时 ， 你 要 定义 清楚 需要 使 用 代码 去 做 什么 。 例 如 ， 你 的 问题 可 能 是 有 太 多 需要 
手工 处 理 的 文件 ， 所 以 你 需要 解决 的 就 是 如 何 用 Python 来 处 理 这 些 文件 。 或者， 你 可 能 正 
在 负责 一 项 具体 的 数据 处 理 与 分 析 任 务 ， 你 认为 使 用 Python 可 以 自动 地 完成 任务 ， 并 能 提 
高 效率 和 一 致 性 。 只 要 你 确认 了 有 具体 的 问题 和 任务 ， 就 可 以 更 容易 地 将 问题 分 解 为 一 个 个 
子 环节 ， 来 逐步 解决 并 完成 你 的 目标 。 
只 要 你 选 定 了 具体 问题 或 任务 ， 并 划分 出 了 解决 问题 的 各 个 环节 ， 你 就 掌握 了 解决 问题 的 
主动 权 。 相 对 于 一 次 性 解决 整个 问题 来 说 ， 每 次 解决 一 个 环节 更 加 容易 。 这 里 我 要 引用 一 
名 格言 :“ 如 何 吃 掉 一 条 鲸鱼 ?当然 要 一 口 一 口 地 吃 。” 每 次 解决 一 个 环节 的 优势 在 于 ， 对 
于 这 个 环节 ， 非 常 可 能 已 经 有 人 遇 到 过 类 似 的 问题 ， 他 (她 ) 已 经 解决 了 这 个 问题 ， 并 在 
网 络 上 或 某 本 书 中 给 出 了 解决 方案 。 

互联 网 是 你 的 朋友 ， 特 别 是 遇 到 编程 问题 时 。 本 书 已 经 介绍 了 如 何 读 取 CSV 文件 和 Excel 
文件 ， 但 是 当 你 需要 读 取 其 他 类 型 的 文件 ， 比 如 JSON 文件 或 HTML 文件 时 ， 应 该 怎么 
办 呢 ? 可 以 打开 训 览 器 ， 在 搜索 栏 中 输入 “python read json file examples”"， 看 看 其 他 人 是 
如 何 用 Python 读 取 JSON 文件 的 。 对 于 你 将 问题 分 解 成 的 各 个 环节 ， 这 个 方法 也 同样 适 
用 。 当 你 将 问题 具体 化 到 一 个 很 小 的 范围 内 时 ， 搜 索 在 线 资 源 将 非常 有 效 。 此 外 ， 除 了 在 
线 资源 ， 还 有 很 多 Python 书籍 和 培训 资料 ， 其 中 有 很 多 有 用 的 代码 片段 和 示例 。 你 可 以 在 
网 上 找到 很 多 免费 的 PDP 格式 的 Python 书籍 ， 在 图 书馆 中 ， 也 有 很 多 这 样 的 书籍 。 我 的 
观点 是 ， 你 不 用 重新 发 明 轮 子 。 对 于 你 的 整体 问题 和 任务 中 的 每 个 小 环节 ， 应 该 先 看 看 本 
书 、 互 联网 或 者 其 他 资源 中 是 否 已 经 有 了 解决 问题 的 方法 ， 然 后 对 这 些 方法 进行 一 些 修改 
和 调试 ， 直 至 问题 解决 。 在 解决 了 每 个 环节 之 后 ， 你 就 可 以 得 到 一 个 Python 脚本 ， 解 决 你 
的 具体 问题 或 任务 。 这 就 是 你 所 追求 的 激动 人 心 的 一 刻 : 轻 轻 地 按 下 一 个 键 ， 经 过 数 天 或 
数 周 辛苦 劳动 完成 的 代码 开始 工作 ， 按 照 你 的 指令 运行 ， 完 美 地 解决 了 你 的 问题 或 任务 。 
这 种 感觉 激动 人 心 ， 使 人 充满 力量 。 一 旦 你 意识 到 可 以 高 效 地 完成 那些 枯燥 无 味 、 浪 费时 
间 、 容 易 出 错 的 手工 不 可 能 完成 的 任务 ， 就 会 感到 一 种 激情 流 遍 全 身 ， 人 迫不及待 地 希望 使 
用 Python 去 完成 更 多 的 问题 和 任务 。 这 就 是 我 希望 你 去 做 的 事情 ， 从 这 里 启 航 ， 选 择 一 个 
重要 的 问题 或 任务 去 攻克 ， 直 到 你 的 代码 正确 运行 ， 到 达 胜 利 的 彼岸 。 
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附录 人 





下 载 指南 


A.1 下 载 Python 3 


A.1.1 Windows 





(访问 https:Wwww.python.org/downloads (下 载 页 面 会 检测 你 的 操作 系统 ， 六 











Windows 版 本 )。 





(2) 点 击 “Download Python 3.4.3”( 或 者 Python 3 的 最 新 版 本 ， 在 本 书 H 


经 更 新 了 ) 。 
(3) 点 击 “Windows x86 MSI installer”， 保 存 或 运行 MSI 安装 程序 。 
(4) 双击 下 载 的 python-3.4.3.msi 安装 程序 ， 启 动 Python 安装 。 


(5) 选择 “Install for all users” 或 “Install just for me”， 然 后 点 击 “Next”。 





(6) 使 用 默认 目标 目录 (Ci\Python3 人 小 )， 然 后 点 击 “Next”。 
(7) 对 所 有 后 续 步 又 ， 不 修改 默认 设置 ,一 直 点 击 “Next”。 


这 样 Python 就 安装 好 了 。 
Python 安装 完成 之 后 ， 执 行 以 下 操作 。 


(D 点 击 “ 开 始 ”按钮 。 
点击“ 控制 面板 ”。 

(3) 点 击 “ 系 统 和 安全 ”。 
(4) 点 击 “ 系 统 ”。 

(5) 点 击 “ 高 级 系统 设置 ”。 
(6) 点 击 “ 高 级 ”标签 页 。 
(0) 点击 “环境 变量 ”。 
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F 建 议 你 安装 








版 之 后 ， 应 该 已 


(8) f£ 


(9) 点 击 “ 编 辑 。 
“变量 值 ” 域 中 ， 检 查 并 确认 “Ci\Python34\” 在 变量 列表 中 。 





(10) 在 








， 向 下 深 动 并 单 击 “Path” 变 量 。 











如 有 果 疫 在 列表 中 ， 那 么 在 列表 未 尾 输入 “;C:Python34” ， 将 路 径 添 加 到 列表 中 


用 来 分 隔 各 个 独立 的 路 径 ) 。 
(11) 点 击 “ 确 定 ”， 保 存 对 路 径 系统 变量 所 做 的 修改 。 
(12) 点 击 “ 确 定 "， 退 出 环境 变量 窗口 。 
击 “确定 "”， 退 出 系统 属性 窗口 。 
(14) 点 击 打 开 资 源 管理 器 。 


(13) 点 


(15) X 


击 C: 磁盘 驱动 器 。 





(16) 双击 Python34 文件 夹 。 
(17) 双击 python 应 用 程序 。 


如 果 打 开 了 Python Shell 窗口 ， 那 么 就 说 明 Python 安装 成 功 了 。 


A.1.2 macOS 


(1) 点 击 “Applications” 打 开 应 用 程序 窗口 。 
(2) 点 击 “iTerm” 打 开 终 端 窗口 。 
(3) 输 入 以 下 命令 ， 然 后 按 回 车 键 : 


which python 








如 果 你 看 到 像 /usr/bin/python/ 或 /usr/local/bin/python 这 样 的 路 径 显 示 在 终端 窗口 中 ， 那 么 
Python 就 已 经 安装 好 了 ， 你 可 以 进行 下 面 的 工作 了 。 


如 果 你 没有 看 到 像 /usr/bin/python/ 或 /usr/local/bin/python iX FEWER, BBA RIES Pi 


指示 来 安装 Python, 


(访问 https://www.python.org/downloads (下 载 页 


Mac OS 版 本 ) 。 
(2) 点 击 “Download Python 3.4.3”( 或 者 Python 3 的 最 新 版 本 ， 在 本 书 出 版 之 后 ， 应 该 已 
经 更 新 了 )。 
(3) 点 击 “Save File", 下 载 python-3.4.3-macosx10.6.pkg。 


(4) 双击 





LT 


(5) Ace “Continue”, BA 


(6) Ad 
(7) ad 
(8) Ad 


























python-3.4.3-macosx10.6.pkg 启动 Python 安装 。 





FXoR rif 











o 





E “Continue”, SA 
E “Agree/Continue” 


LT 





F 重 要 信息 提示 界面 。 
， 离 开 软件 许可 协议 界 画 























lo 


"Install ， 在 默认 目录 下 安装 Python。 


(9) 对 于 所 有 后 续 步 又 ， 不 修改 默认 设置 ， 一 直 点 击 “Continue 。 
这 样 Python 就 安装 好 了 。 
(10) 点 击 “Applications” 打 开 应 用 程序 窗口 。 
(11) 点 击 “iTerm” 打 开 终 端 窗口 。 











的 











下 会 检测 你 的 操作 系统 ， 并 建议 你 安装 
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(12) 输入 以 下 命令 ， 然 后 按 


which python 


车 键 : 





Iz] 


你 应 该 可 以 看 到 像 usr/bin/python/ 或 /usr/local/bin/python 这 样 的 路 径 ， 这 说 明 Python 已 经 
安装 好 了 ， 你 可 以 进行 下 面 的 工作 了 。 


A.2 ”下载 xLrd 扩 展 包 


A.2.1 Windows 


方法 1 
在 进行 以 下 步骤 之 前 ， 你 必须 先 安 装 好 Python 3, 
(1) 打开 命令 行 窗口 。 


(2) 输入 以 下 命令 ， 然 后 按 回 车 键 ; 

python -m pip install xlrd 
按 下 回 车 键 之 后 ， 你 会 看 到 命令 行 窗 口中 的 输出 信息 ， 表 示 xLrd 扩展 包 已 经 安装 好 了 。 
要 确认 xLrd 安装 正确 ， 执 行 以 下 步骤 。 


(1) 点 击 打开 资源 管理 器 。 
(2) 双击 C: 磁盘 驱动 器 。 
(3) 双击 Python34 文件 夹 。 
(4) 双击 python 应 用 程序 。 
(5) 当 Python Shell 窗口 打开 后 ， 输 入 以 下 命令 ， 然 后 按 回 车 键 : 


import xlrd 
如 果 你 没有 接收 到 任何 错误 信息 ， 那 么 就 说 明 xlrd 安装 正确 ， 你 可 以 进行 下 面 的 工作 了 。 
方法 2 
(1) 访问 https://pypi.python.org/pypi/xlrd。 
(2) 点 击 绿色 的 “Downloads” 按 钮 ， 下 载 xLrd 的 最 新 版 本 。 
(3) 在 下 载 的 程序 文件 上 点 击 鼠 标 右键 ， 选 择 “ 在 文件 夹 中 显示 ”。 
(4) 将 文件 解压 到 Downloads 文件 夹 中 。 
(5) 双击 解压 后 的 xlrd-0.9.3.tar 文件 夹 ， 进 入 文件 夹 。 
(6) 点 击 并 复制 解压 后 的 xlrd-0.9.3 文件 夹 。 
(7) ll S] Downloads 文件 夹 ， 将 解压 后 的 xlrd-0.9.3 文件 夹 粘贴 到 这 个 文件 夹 。 
(8) 打开 命令 行 窗 口 。 
(9) 输 入 以 下 命令 ， 然 后 按 回 车 键 ， 转 到 Downloads 文件 夹 : 


/cd Downloads 


(10) 输入 以 下 命令 ， 然 后 按 回 车 键 ， 转 到 xlrd-0.9.3 文件 夹 : 
cd xlrd-0.9.3 
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(11) 现在 已 经 来 到 了 xlrd-0.9.3 文件 夹 中 ， 输 入 以 下 命令 ， 然 后 按 回 车 键 ; 
python setup.py install 
按 下 回 车 键 之 后 ， 你 会 看 到 命令 行 窗口 中 的 输出 信息 ， 表 示 xtd 扩展 包 已 经 安装 好 了 。 
要 确认 xlrd 安装 正确 ， 执 行 以 下 步骤 。 
(1) 点 击 打开 资源 管理 器 。 
(2) 双击 C: 磁盘 驱动 器 。 
(3) 双击 Python34 文件 夹 。 
(4) 双击 python 应 用 程序 。 
(5) 在 Python Shell 窗口 打开 后 ， 输 入 以 下 命令 ， 然 后 按 回 车 键 : 


import xlrd 


如 果 你 没有 接收 到 任何 错误 信息 ， 那 么 就 说 明 xtrd 安装 正确 ， 你 可 以 进行 下 面 的 工作 了 。 

















A.2.2 macOS 

方法 1 

在 进行 以 下 步骤 之 前 ， 你 必须 先 安 装 好 Python 3, 
(1) 点 击 “Applications” 打 开 应 用 程序 窗口 。 

(2) 点 击 “iTerm” 打 开 终 端 窗口 。 

(3) 输 入 以 下 命令 ， 然 后 按 回 车 键 : 


python -m pip install xlrd 
按 下 回 车 键 之 后 ， 你 会 看 到 命令 行 窗 口中 的 输出 信息 ， 表 示 xtrd 扩展 包 已 经 安装 好 了 。 
如 果 你 收 到 了 错误 信息 ， 请 试 着 输入 以 下 命令 ， 然 后 按 回 车 键 : 

sudo python -m pip install xlrd 


你 会 被 要 求 输入 登录 进 计 算 机 的 密码 。 输 入 密码 〈 不 会 显示 在 屏幕 上 )， 然 
后 按 回 车 键 。 














要 确认 xlrd 安装 正确 ， 执 行 以 下 步骤 。 


(1) 点 击 “Applications” 打 开 应 用 程序 窗口 。 
(2) 点 击 “iTerm” 打 开 终 端 窗 口 。 
(3) 在 终端 窗口 中 打开 Python 解释 器 ， 输 入 以 下 命令 ， 然 后 按 回 车 键 : 


python 


(4) Python 解释 器 打开 后 ， 输 入 以 下 命令 ， 然 后 按 回 车 键 : 


import xlrd 


如 果 你 没有 接收 到 任何 错误 信息 ， 那 么 就 说 明 xLrd 安装 正确 ， 你 可 以 进行 下 面 的 工作 了 。 
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方法 2 

(1) 访问 https://pypi.python.org/pypi/xlrd , 

(2) 点 击 绿色 的 “Downloads” 按 钮 ， 转 到 可 下 载 文件 。 

(3) 点 击 “xlrd-0.9.3.tar.gz”( 或 最 新 版 本 ， 在 本 书 出 版 时 ， 应 该 已 经 更 新 了 )， 将 压缩 文件 
保存 到 Downloads 文件 夹 。 

(4) 双击 下 载 的 文件 ， 将 文件 解压 到 Downloads 文件 夹 。 


如 果 在 解压 文件 时 遇 到 问题 ， 也 可 以 在 终端 窗口 中 解压 文件 。 在 终端 窗口 中 
输入 以 下 命令 ， 然 后 按 回 车 键 ， 转 到 Downloads 文件 夹 ; 


cd Downloads 


接 下 来 ， 开 始 解压 文件 ， 输 入 以 下 命令 ， 然 后 按 回 车 键 : 
tar -zxvf xlrd-0.9.3.tar.gz 


解压 后 的 文件 夹 xlrd-0.9.3 会 出 现在 Downloads 文件 夹 中 。 



































(5) 点 击 “Applications” 打 开 应 用 程序 窗口 
(6) 点 击 “iTerm” 打 开 终端 窗口 
(7 输入 以 下 命令 ， 然后 按 回 车 键 ， 转 到 Downloads 文件 夹 : 


cd DownLoads/ 

(8) 输 入 以 下 命令 ， 然 后 按 回 车 键 ， 转 到 xlrd-0.9.3 XHEK : 

cd xLrd-0.9.3/ 

(9) 现在 已 经 来 到 了 xlrd-0.9.3 文件 夹 中 ， 输 入 以 下 命令 ， 然 后 按 回 车 键 : 


python setup.py install 
按 下 回 车 键 之 后 ， 你 会 看 到 命令 行 窗 口中 的 输出 信息 ， 表 示 xLrd 扩展 包 已 经 安装 好 了 。 


如 果 你 收 到 了 错误 信息 ， 请 试 着 输入 以 下 命令 ， 然 后 按 回 车 键 : 
sudo python setup.py install 


你 会 被 要 求 输入 登录 进 计 算 机 的 密码 。 输 入 密码 (不 会 显示 在 屏幕 上 )， 然 
后 按 回 车 键 。 


要 确认 xLrd 安装 正确 ， 执 行 以 下 步骤 。 


(1) 点 击 “Applications” 打 开 应 用 程序 窗口 。 
(2) 点 击 “iTerm” 打 开 终端 窗口 
(3) 在 终端 窗口 中 打开 Python 解释 器 ， 输 入 以 下 命令 ， 然 后 按 回 车 链 ， 


python 


(4) Python 解释 器 打开 后 ， 输 入 以 下 命令 ， 然 后 按 回 车 键 : 


import xlrd 


如 果 你 没有 接收 到 任何 错误 信息 ， 那 么 就 说 明 xLrd 安装 正确 ， 你 可 以 进行 下 面 的 工作 了 。 
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A.3 下 载 MySQL 数 据 库 服务 器 


A.3.1 Windows 


(1) 访问 http://dev.mysql.com/downloads/mysql. 

(2) Ste “MySQL Community Server” , 

(3) Fac “Windows (x86, 32-bit), MySQL Installer MSI” 33525) “Download” 4H. 
(4) Site "No thanks, just start my download.” , 

(5) 下 载 结束 后 ， 点 击 下 载 的 安装 程序 进行 安装 。 

(6) 按照 安装 程序 中 的 指示 完成 安装 。 








A.3.2 macOS 


(1) 访问 http://dev.mysql.com/downloads/mysql , 
(2) ce "MySQL Community Server” , 
(3) iiti: “Mac OS X 10.11 (x86, 64-bit), DMG Archive." 2235HJ “Download” 42. 


一 定 要 选择 dmg 文件 ， 这 个 才 是 安装 文件 。 


(4) cH “No thanks, just start my download." , 

(5) 下 载 结束 后 ， 点 击 下 载 的 安装 程序 进行 安装 。 
(6) 按照 安装 程序 中 的 指示 完成 安装 。 

A.3.3 ”启动 MySQL 


我 不 想 骗 你 ， 这 一 步 很 可 能 会 出 问题 。MySQL 参考 手册 (http://dev.mysql.com/doc/refman/5.7/ 
en) 中 关于 如 何 安 装 的 部 分 对 此 进行 了 详细 介绍 ， 但 是 ， 按 照 手册 中 的 步骤 启动 MySQL, 
总 是 会 有 一 两 条 错误 信息 需要 你 使 用 Google 去 解决 。 


A.4 下 载 nysqlclient (Python 3.x) /MySQL- 
python (Python 2.x) 


在 进行 以 下 步骤 之 前 ， 你 应 该 先 下 载 安装 MySQL。 这 个 Python 扩展 包 的 安装 程序 在 进行 
安装 时 会 检查 MySQL 配置 文件 ， 如 果 没 有 发 现 MySQL， 安 装 就 会 失败 。 














A.4.1 Windows 
方法 1 
在 进行 以 下 步骤 之 前 ， 你 必须 先 安装 好 Python 3。 
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(1) 打开 命令 行 窗口 。 
(2) 输 入 以 下 命令 ， 然 后 按 回 车 键 : 


python -m pip install mysqlclient 


按 下 回 车 键 之 后 ， 你 会 看 到 命令 行 窗口 中 的 输出 信息 ， 表 示 ysqtctient 扩展 包 已 经 安装 
好 了 。 


要 确认 mysqlclient 安装 正确 ， 执 行 以 下 步骤 。 


(1) 点 击 打开 资源 管理 器 

(2) 双击 C: 磁盘 驱动 器 

(3) 双击 Python34 文件 夹 。 

(4) 双击 python 应 用 程序 。 

(5) 在 Python Shell 窗口 打开 后 ， 输 入 以 下 命令 ， 然 后 按 回 车 键 : 


import MySQLdb 


如 果 你 没有 接收 到 任何 错误 信息 ， 那 么 就 说 明 mysqlclient 安装 正确 ， 你 可 以 进行 下 面 的 

TIETo 

方法 2 

(1) Hla) http://www.lfd.uci.edu/~gohlke/pythonlibs/#mysqlclient, 

(2) 点 击 与 你 的 Python 版 本 (3.x BK 2.x) 和 操作 系统 版 本 (32-bit 或 64-bit) 对 应 的 
mysqlclient 版 本 链接 。 

(3) 将 文件 保存 至 Downloads 文件 夹 。 


要 确定 所 需 的 版 本 ， 你 可 以 打开 一 个 命令 行 窗口 ， 输 入 python 并 按 回 车 
键 ， 打 开 Python 解释 器 ， 然 后 查看 屏幕 上 方 的 头 信息 。 你 会 看 到 像 “Python 
3.4.3(32-biD” 这 样 的 信息 ， 这 说 明 你 应 该 选择 32 位 的 Python3.4 使 用 的 版 
本 。 在 写作 本 书 的 时 候 ， 链 接应 该 为 : mysqlclient-1.3.6-cp34-none-win32. 
whl。 如 果 你 安装 了 不 同 版 本 的 Python 或 不 同 版 本 的 操作 系统 ， 那 么 你 需要 
按照 你 的 版 本 选择 链接 。 






































(4) 打开 命令 行 窗口 。 
(5) 输 入 以 下 命令 ， 然 后 按 回 车 键 : 


cd Downloads 

(6) 输 入 以 下 命令 〈 可 以 按照 实际 情况 使 用 不 同 的 文件 名 ) ， 然 后 按 
python -m pip install mysqlclient-1.3.6-cp34-none-win32.whl 

按 下 回 车 键 之 后 ， 你 会 看 到 命令 行 窗口 中 的 输出 信息 ， 表 示 mysqlclient 扩展 包 已 经 安装 好 了 。 

要 确认 mysqlclient 安装 正确 ， 执 行 以 下 步骤 。 


(1) 点 击 打开 资源 管理 器 
(2) 双击 C: 磁盘 驱动 器 


车 键 : 





Iz] 
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(3) 双 击 Python34 文件 夹 。 
(4) 双击 python 应 用 程序 。 
(5) 在 Python Shell 窗口 打开 后 ， 输 入 以 下 命令 ， 然 后 按 


import mysqlclient 


如 果 你 没有 接收 到 任何 错误 信息 ， 那 么 就 说 明 mysqlclient 安装 正确 ， 你 可 以 进行 下 面 的 
工作 了 。 





车 键 : 





Iz] 


A.4.2 macOS 

方法 1 

在 进行 以 下 步骤 之 前 ， 你 必须 先 安装 好 Python 3。 
(1) 点 击 “Applications” 打 开 应 用 程序 窗口 。 

(2) 点 击 “iTerm” 打 开 终 端 窗口 。 

(3) 输 入 以 下 命令 ， 然 后 按 回 车 键 : 


python -m pip install mysqlclient 


按 下 回 车 键 之 后 ， 你 会 看 到 命令 行 窗口 中 的 输出 信息 ， 表 示 mysqlclient 扩展 包 已 经 安 
装 好 了 。 





如 果 你 收 到 了 错误 信息 ， 请 试 着 输入 以 下 命令 ， 然 后 按 回 车 键 : 
sudo python -m pip install mysqlclient 
你 会 被 要 求 输 入 登录 进 计 算 机 的 密码 。 输 入 密码 (不 会 显示 在 屏幕 上 )， 然 
后 按 回 车 键 。 
要 确认 mysqlclient 安装 正确 ， 执 行 以 下 步骤 。 
(1) 点 击 “Applications” 打 开 应 用 程序 窗口 。 
DQ 点击“iTerm” 打 开 终 端 窗口 。 
(3) 在 终端 窗口 中 打开 Python 解释 器 ， 输 入 以 下 命令 ， 然 后 按 回 车 键 : 


python 


(4) Python 解释 器 打开 后 ， 输 入 以 下 命令 ， 然 后 按 回 车 键 : 
import mysqlclient 
如 果 你 没有 接收 到 任何 错误 信息 ， 那 么 就 说 明 mysqlclient 安装 正确 ， 你 可 以 进行 下 面 的 
EET. 
方法 2 
(1) 访问 https://pypi.python.org/pypi/mysqlclient, 
(2) 点 击 绿色 的 “Downloads” 按 钮 ， 转 到 可 下 载 文件 。 
(3) 点 击 “mysqlclient-1.3.6.tar.gz”( 或 最 新 版 本 ， 在 本 书 出 版 时 ， 应 该 已 经 更 新 了 )， 将 压 
缩 文 件 保 存 到 Downloads 文件 夹 。 
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(4) 双击 下 载 的 文件 ， 将 文件 解压 到 Downloads 文件 夹 。 


如 果 在 解压 文件 时 遇 到 问题 ， 也 可 以 在 终端 窗口 中 解压 文件 。 在 终端 窗口 中 
输入 以 下 命令 ， 然 后 按 回 车 键 ， 转 到 Downloads 文件 夹 : 


cd Downloads 
































接 下 来 ， 开 始 解压 文件 ， 输 入 以 下 命令 ， 然 后 按 回 车 键 : 


tar -zxvf mysqlclient-1.3.6.tar.gz 





解压 后 的 文件 夹 mysglclient-1.3.6 会 出 现在 Downloads 文件 夹 中 。 





(5) 点 击 “Applications” 打 开 应 用 程序 窗口 。 
(6) 点 击 “iTerm” 打 开 终 端 窗口 。 
(7) 输 入 以 下 命令 ， 然 后 按 回 车 键 ， 转 到 Downloads 文件 夹 : 


cd DownLoads/ 
(8) 输入 以 下 命令 ， 然 后 按 回 车 键 ， 转 到 mysqlclient-1.3.6 文件 夹 : 
cd mysqlclient-1.3.6/ 


(9) 现在 已 经 来 到 了 mysqlclient-1.3.6 文件 夹 中 ， 输 入 以 下 命令 ， 然 后 按 回 车 键 : 


python setup.py install 
按 下 回 车 键 之 后 ， 你 会 看 到 命令 行 窗口 中 的 输出 信息 ， 表 示 mysqlclient 扩展 包 已 经 安装 好 了 。 
如 果 你 收 到 了 错误 信息 ， 请 试 着 输入 以 下 命令 ， 然 后 按 回 车 键 : 


sudo python setup.py install 


你 会 被 要 求 输入 登录 进 计算 机 的 密码 。 输 入 密码 〈 不 会 显示 在 屏幕 上 )， 然 
后 按 回 车 键 。 








要 确认 mysqlclient 安装 正确 ， 执 行 以 下 步骤 。 
(1) 点 击 “Applications” 打 开 应 用 程序 窗口 

(2) 点 击 “iTerm” 打 开 终 端 窗口 

(3) 在 终端 窗口 中 打开 Python 解释 器 ， 输 入 以 下 命令 ， 然 后 按 回 车 键 : 


python 
(4) Python 解释 器 打开 后 ， 输 入 以 下 命令 ， 然 后 按 回 车 键 : 
import mysqlclient 


如 果 你 没有 接收 到 任何 错误 信息 ， 那 么 就 说 明 mysqlclient 安装 正确 ， 你 可 以 进行 下 面 的 
工作 了 。 
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第 1 章 


练习 1 


#!/usr/bin/env python3 
farm animals = ['cow','pig','horse'] 
domestic animals = ['dog','cat','gold fish'] 
zoo animals - ['lion','elephant','gorilla'] 
animals = farm animals + domestic animals + zoo animals 
for index value in range(len(animals)): 
print("(0:d): (1!sj'".format(index value, animals[index value])) 


练习 2 


#!/usr/bin/env python3 
animals dictionary = {} 
animals list = ['cow','pig', 'horse'] 
other list = [4567,[4,'turn',7,'left'],'Animals are great.'] 
for index value in range(len(animals list)): 

if animals list[index value] not in animals dictionary: 

animals dictionary[animals list[index value]] = other list[index value] 

for key, value in animals dictionary.items(): 

print("(0!s): {1}".format(key, value)) 


练习 3 


#!/usr/bin/env python3 
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list of lists = [['cow','pig','horse'], ['dog','cat','gold fish'],\ 
['lion','elephant','gorilla']] 
for animal list in list of lists: 
max index = len(animal list) 
output - '' 
for index in range(len(animal list)): 
if index « (max index-1): 
output += str(animal_list[index])+',' 
else: 
output += str(animal_list[index])+'\n' 
print(output) 
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作者 介绍 

Clinton W. Brownley 博士 ，Facebook 数据 科学 家 ， 负 责 数据 流水 线 、 统 计 建 模 和 数据 可 视 
化 项 目 ， 并 为 大 型 基础 设施 建设 提供 数据 驱动 的 决策 建议 。Clinton 是 美国 统计 协会 旧金山 
湾 区 分 会 的 前 负责 人 ， 还 是 运筹 学 与 管理 科学 协会 实践 部 委员 。Clinton LATA AEK 
学 和 美利坚 大 学 的 学 位 。 


封面 介绍 
本 书 封面 上 的 动物 是 一 只 夹 竹 桃 蛾 幼虫 (拉丁 文 名 称 为 Syntomeida epilais) 。 


夹 竹 桃 蛾 幼虫 是 杰 色 的 ， 身 上 黑 毛 丛生。 它们 主要 食用 夹 竹 桃 。 夹 竹 桃 是 一 种 常 绿 灌木 ， 
也 是 一 种 常见 有 毒 的 园艺 植物 。 夹 竹 桃 蛾 幼虫 对 夹 竹 桃 的 毒性 免疫 ， 并 通过 取 食 和 消化 夹 
竹 桃 ， 来 使 任何 想 要 吃 掉 它们 的 鸟 类 和 哺乳 动物 中 毒 。 当 夹 竹 桃 在 17 世纪 被 西班牙 人 引 
入 佛罗里达 时 ， 夹 竹 桃 蛾 就 已 经 生活 在 佛罗里达 了 。 它 们 和 寄生 在 本 地 的 葡 葡 芯 上 ， 但 是 当 
夹 竹 桃 大 量 繁 殖 、 更 容易 找到 时 ， 这 种 蛾 子 就 适应 了 新 的 植物 ， 大 量 寄居 在 夹 竹 桃 上 ， 
而 被 称 为 夹 竹 桃 蛾 。 

Ref KAT PEK hi RAR AK: 它 的 身体 和 翅膀 是 闪 亮 多 变 的 蓝 色 ， 带 有 和 白色 小 圆 点 ， 腹 
部 末端 为 亮 红色 。 这 种 蛾 子 白 天 活动 积极 像 黄 蜂 一 样 飞行 较 慢 。 坎 蛾 栖息 在 夹 竹 桃 叶子 
上 ， 发 射出 一 种 超声 波 信 号 ， 吸 引 远 处 的 雄 蛾 。 当 雄 蛾 与 峻 蛾 彼此 相距 几米 时 ， 它 们 就 开 
始 一 场 求偶 二 重唱 ， 直 至 交尾 为 止 。 交 尾 一 般 发 生 在 黎明 之 前 的 两 到 三 个 小 时 。 交 尾 过 
E, RA AAT SIA FIP, UPR PA 12-75 只 受精 卵 。 受 精 卵 鲍 化 后 ,幼虫 群 
居 在 一 起 ， 以 粗 叶 脉 和 细 叶 脉 之 间 的 植物 组 织 为 食 ， 直 至 叶子 枯 芙 。 这 种 对 叶子 的 损害 不 
会 使 植物 死亡 ， 但 确实 会 使 植物 容易 感染 其 他 疾病 。 

O'Reilly 图 书 封面 上 的 很 多 动物 部 是 濒危 物种 ， 它 们 对 世界 部 很 重要 。 如 果 你 想 为 保护 动 
物 做 些 贡 献 ， 请 访问 animals.oreilly.com。 











封面 照片 来 自 Woods Illustrated Natural History. 
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来 自 Facebook 的 数据 专家 Clinton Brownley 可 以 帮 您 解决 上 述 问题 。 在 他 
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